DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

GPT-5 nu este pregătit pentru munca agentică de producție. Kimi ar putea fi. Mai multe chitanțe (ca în cazul oricărei contabilități bune) Am rulat GPT-5 cu Opus 4.1, dar a durat atât de mult încât am ajuns să rulez 3 modele în timp ce așteptam ca GPT-5 să se termine. Run-urile de aici sunt puțin hiper-verbale, așa că adnotarea mea rapidă: 1. Respectarea instrucțiunilor Solicitat să "utilizeze spațiul de lucru TypeScript furnizat", printre altele -GPT-5: Ignorat timp de 15 minute, a scris mai întâi 31 de comenzi shell -Kimi: Am încercat TypeScript imediat (am eșuat de 3 ori pe căi, dar am continuat să încerc) -Opus: TypeScript la minutul 2 -Sonnet: TypeScript la minutul 7 2. Gestionarea erorilor -GPT-5: comanda de 500 de caractere eșuează → se extinde la 2000+ caractere → încă eșuează → continuă să se extindă -Kimi: Eroarea de cale 3x → simplifică în sfârșit → funcționează -Opus: 95% lucreaza prima data -Sonnet: Instrumentul lipsește → comutatoare abordează → continuă 3. Descoperiri unice (munca noastră de bază - merită propria postare) -GPT-5: Modificări de schemă (RIDRETH2→RIDRETH3), modele de denumire (_J sufix) -Kimi: Validare de bază - SEQN există, 9966 participanți -Sonnet: Sănătate mintală ascunsă în Altele/, 1,4 milioane de fișiere rând -Opus: 86% dispersie proiectată, interval 2-323 coloane 4. Produs de cod -GPT-5: inventory.ts cu 2000+ char bash încorporat în interior -Kimi: simple_validate.ts - minim, dar funcționează -Sonet: comprehensive_analysis.ts - separare curată -Opus: 3 fișiere modulare - cadru extensibil 5. Resurse -Kimi: 14 min, $1.59 -Sonet: 6 min, $1.87 -GPT-5: 27 min, 5,04 USD -Opus: 10 min, $10.46 Acestea fiind spuse, pot vedea că GPT-5 cunoaște o mulțime de trucuri tehnice și un actor destul de capabil la inițial - dar vine cu o marjă de eroare mare și riscul de a se abate de la punct (ceea ce a făcut de mai multe ori cu această sarcină). S-ar putea să-l folosesc pentru depanare rapidă, dar o bază de cod masivă sau o sarcină de analiză, aș prefera kimi cu multe bariere de protecție așa cum suntem.

61,78K

Limită superioară

Clasament

Favorite

La modă pe lanț

La modă pe X

Principalele finanțări recente

Cele mai importante