GPT-5 ist noch nicht bereit für produktive agentische Arbeiten. Kimi könnte es sein. Mehr Belege (wie bei jeder guten Buchhaltung) Ich habe GPT-5 mit Opus 4.1 ausgeführt, aber es hat so lange gedauert, dass ich während des Wartens auf das Ende von GPT-5 3 Modelle ausgeführt habe. Die Ausführungen hier sind etwas hyper-verbal, daher meine schnelle Anmerkung: 1. Anweisungsbefolgung Es wurde gebeten, "den bereitgestellten TypeScript-Arbeitsbereich zu verwenden" unter anderem -GPT-5: 15 Minuten ignoriert, zuerst 31 Shell-Befehle geschrieben -Kimi: Hat sofort TypeScript ausprobiert (3x bei Pfaden gescheitert, aber weiter versucht) -Opus: TypeScript bei Minute 2 -Sonnet: TypeScript bei Minute 7 2. Fehlerbehandlung -GPT-5: 500-Zeichen-Befehl schlägt fehl → erweitert auf 2000+ Zeichen → schlägt immer noch fehl → erweitert weiter -Kimi: Pfadfehler 3x → vereinfacht schließlich → funktioniert -Opus: 95% beim ersten Mal erfolgreich -Sonnet: Werkzeug fehlt → wechselt den Ansatz → macht weiter 3. Einzigartige Erkenntnisse (unsere Kernarbeit - einen eigenen Beitrag wert) -GPT-5: Schemaänderungen (RIDRETH2→RIDRETH3), Benennungsschemata (_J-Suffix) -Kimi: Grundlegende Validierung - SEQN existiert, 9966 Teilnehmer -Sonnet: Psychische Gesundheit versteckt in Other/, 1,4 Millionen Zeilen Dateien -Opus: 86% gestaltete Sparsamkeit, 2-323 Spaltenbereich 4. Produzierter Code -GPT-5: inventory.ts mit 2000+ Zeichen Bash eingebettet -Kimi: simple_validate.ts - minimal, aber funktioniert -Sonnet: comprehensive_analysis.ts - saubere Trennung -Opus: 3 modulare Dateien - erweiterbares Framework 5. Ressourcen -Kimi: 14 Minuten, 1,59 $ -Sonnet: 6 Minuten, 1,87 $ -GPT-5: 27 Minuten, 5,04 $ -Opus: 10 Minuten, 10,46 $ Das gesagt, ich kann sehen, dass GPT-5 viele technische Tricks kennt und ein ziemlich fähiger Akteur auf Baseline ist - aber mit einer hohen Fehlermarge und dem Risiko, vom Punkt abzuweichen (was es bei dieser Aufgabe mehrfach getan hat). Ich könnte es für schnelles Debugging verwenden, aber bei einem massiven Codebestand oder einer Analyseaufgabe würde ich Kimi mit vielen Sicherheitsvorkehrungen bevorzugen, wie wir stehen.
58,27K