Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
GPT-5 nu este pregătit pentru munca agentică de producție. Kimi ar putea fi. Mai multe chitanțe (ca în cazul oricărei contabilități bune)
Am rulat GPT-5 cu Opus 4.1, dar a durat atât de mult încât am ajuns să rulez 3 modele în timp ce așteptam ca GPT-5 să se termine.
Run-urile de aici sunt puțin hiper-verbale, așa că adnotarea mea rapidă:
1. Respectarea instrucțiunilor
Solicitat să "utilizeze spațiul de lucru TypeScript furnizat", printre altele
-GPT-5: Ignorat timp de 15 minute, a scris mai întâi 31 de comenzi shell
-Kimi: Am încercat TypeScript imediat (am eșuat de 3 ori pe căi, dar am continuat să încerc)
-Opus: TypeScript la minutul 2
-Sonnet: TypeScript la minutul 7
2. Gestionarea erorilor
-GPT-5: comanda de 500 de caractere eșuează → se extinde la 2000+ caractere → încă eșuează → continuă să se extindă
-Kimi: Eroarea de cale 3x → simplifică în sfârșit → funcționează
-Opus: 95% lucreaza prima data
-Sonnet: Instrumentul lipsește → comutatoare abordează → continuă
3. Descoperiri unice (munca noastră de bază - merită propria postare)
-GPT-5: Modificări de schemă (RIDRETH2→RIDRETH3), modele de denumire (_J sufix)
-Kimi: Validare de bază - SEQN există, 9966 participanți
-Sonnet: Sănătate mintală ascunsă în Altele/, 1,4 milioane de fișiere rând
-Opus: 86% dispersie proiectată, interval 2-323 coloane
4. Produs de cod
-GPT-5: inventory.ts cu 2000+ char bash încorporat în interior
-Kimi: simple_validate.ts - minim, dar funcționează
-Sonet: comprehensive_analysis.ts - separare curată
-Opus: 3 fișiere modulare - cadru extensibil
5. Resurse
-Kimi: 14 min, $1.59
-Sonet: 6 min, $1.87
-GPT-5: 27 min, 5,04 USD
-Opus: 10 min, $10.46
Acestea fiind spuse, pot vedea că GPT-5 cunoaște o mulțime de trucuri tehnice și un actor destul de capabil la inițial - dar vine cu o marjă de eroare mare și riscul de a se abate de la punct (ceea ce a făcut de mai multe ori cu această sarcină).
S-ar putea să-l folosesc pentru depanare rapidă, dar o bază de cod masivă sau o sarcină de analiză, aș prefera kimi cu multe bariere de protecție așa cum suntem.
61,78K
Limită superioară
Clasament
Favorite