GPT-5 er ikke klar for produksjonsagentarbeid. Kimi kan være det. Flere kvitteringer (som med alle gode regnskaper) Kjørte GPT-5 med Opus 4.1, men det tok så lang tid at jeg endte opp med å kjøre 3 modeller mens jeg ventet på at GPT-5 skulle bli ferdig. Løp her er litt hyperverbale, så min raske kommentar: 1. Følge instruksjoner Bedt om å "bruke TypeScript-arbeidsområdet som følger med" blant annet -GPT-5: Ignorert i 15 minutter, skrev 31 skallkommandoer først -Kimi: Prøvde TypeScript umiddelbart (mislyktes 3 ganger på baner, men fortsatte å prøve) -Opus: TypeScript i minutt 2 -Sonnett: TypeScript i minutt 7 2. Håndtering av feil -GPT-5: 500-char-kommandoen mislykkes → utvides til 2000+ tegn → mislykkes fortsatt → fortsetter å utvide seg -Kimi: Banefeil 3x → forenkler endelig → fungerer -Opus: 95 % jobber første gang -Sonnet: Verktøy mangler → brytere nærmer seg → fortsetter 3. Unike funn (vårt kjernearbeid - verdt sitt eget innlegg) -GPT-5: Skjemaendringer (RIDRETH2→RIDRETH3), navnemønstre (_J suffiks) -Kimi: Grunnleggende validering - SEQN finnes, 9966 deltakere -Sonnet: Mental helse skjult i andre/, 1,4 millioner radfiler -Opus: 86 % designet sparsitet, 2-323 kolonneområde 4. Kode produsert -GPT-5: inventory.ts med 2000+ char bash innebygd inni -Kimi: simple_validate.ts - minimal, men fungerer -Sonnett: comprehensive_analysis.ts - ren separasjon -Opus: 3 modulære filer - utvidbart rammeverk 5. Ressurser -Kimi: 14 min, $1.59 -Sonnett: 6 min, $1.87 -GPT-5: 27 min, $5.04 -Opus: 10 min, $10,46 Når det er sagt, kan jeg se at GPT-5 kan mange tekniske triks og en ganske dyktig skuespiller ved baseline - men kommer med høy feilmargin og risiko for å avvike fra punktet (noe den gjorde flere ganger med denne oppgaven). Jeg kan bruke den til rask feilsøking, men en massiv kodebase eller analyseoppgave, jeg foretrekker kimi med mange rekkverk som vi står.
37,37K