GPT-5 is nog niet klaar voor productie-agentwerk. Kimi misschien wel. Meer bewijs (zoals bij elke goede boekhouding) Ik heb GPT-5 uitgevoerd met Opus 4.1, maar het duurde zo lang dat ik uiteindelijk 3 modellen heb uitgevoerd terwijl ik wachtte tot GPT-5 klaar was. De runs hier zijn een beetje hyper-verbaal, dus mijn snelle annotatie: 1. Instructie-volgen Gevraagd om "de TypeScript-werkruimte te gebruiken die is verstrekt" onder andere dingen -GPT-5: Genegeerd gedurende 15 minuten, schreef eerst 31 shell-commando's -Kimi: Probeerde onmiddellijk TypeScript (3x gefaald op paden maar bleef proberen) -Opus: TypeScript na 2 minuten -Sonnet: TypeScript na 7 minuten 2. Foutafhandeling -GPT-5: 500-teken commando faalt → breidt uit naar 2000+ tekens → faalt nog steeds → blijft uitbreiden -Kimi: Padfout 3x → vereenvoudigt uiteindelijk → werkt -Opus: 95% werk de eerste keer -Sonnet: Tool ontbreekt → verandert aanpak → gaat verder 3. Unieke bevindingen (ons kernwerk - het is een aparte post waard) -GPT-5: Schemawijzigingen (RIDRETH2→RIDRETH3), naamgevingspatronen (_J achtervoegsel) -Kimi: Basisvalidatie - SEQN bestaat, 9966 deelnemers -Sonnet: Geestelijke gezondheid verborgen in Other/, 1,4M rijbestanden -Opus: 86% ontworpen sparsiteit, 2-323 kolomrange 4. Geproduceerde code -GPT-5: inventory.ts met 2000+ tekens bash ingebed -Kimi: simple_validate.ts - minimaal maar werkt -Sonnet: comprehensive_analysis.ts - schone scheiding -Opus: 3 modulaire bestanden - uitbreidbaar framework 5. Hulpbronnen -Kimi: 14 min, $1,59 -Sonnet: 6 min, $1,87 -GPT-5: 27 min, $5,04 -Opus: 10 min, $10,46 Dat gezegd hebbende, ik zie dat GPT-5 veel technische trucs kent en een behoorlijk capabele acteur is als basis - maar komt met een hoge foutmarge en risico om van het punt af te wijken (wat het meerdere keren deed met deze taak). Ik zou het misschien gebruiken voor snelle foutopsporing, maar voor een enorme codebase of analysetaak, geef ik de voorkeur aan Kimi met veel vangrails zoals we nu staan.
58,27K