GPT-5 は、本番エージェントの作業の準備ができていません。キミはそうかもしれません。より多くの領収書(他の優れた会計と同様) GPT-5をOpus 4.1で実行しましたが、時間がかかりすぎてGPT-5が終わるのを待っている間、3つのモデルを実行することになりました。 ここでの実行は少しハイパー言語的なので、簡単な注釈を付けます。 1. 指示に従う とりわけ「提供されているTypeScriptワークスペースを使用する」ように求められました -GPT-5: 15分間無視され、最初に31個のシェルコマンドを書きました -Kimi:TypeScriptをすぐに試しました(パスで3回失敗しましたが、試し続けました) -Opus: 2分のTypeScript -ソネット:7分にTypeScript 2. エラー処理 -GPT-5: 500 文字のコマンドが失敗→ 2000+ 文字に拡張される→それでも失敗→拡張し続ける ・キミ:パスエラー3倍→ついに→が簡単に動作 -作品:95%が初回で作業 ・ソネット:ツール欠落→スイッチが近づいて→続く 3. ユニークな発見 (私たちのコアワーク - それ自体の投稿に値する) -GPT-5: スキーマの変更 (RIDRETH2→RIDRETH3)、命名パターン (_J サフィックス) -Kimi:基本検証 - SEQNが存在する、9966人の参加者 ・ソネット:Other/に隠されたメンタルヘルス、1.4M行ファイル -Opus:86%設計スパース性、2-323カラム範囲 4. コードプロデュース -GPT-5:2000 +文字bashが埋め込まれたinventory.ts -キミ:simple_validate.ts - 最小限ですが機能します -ソネット:comprehensive_analysis.ts - クリーンセパレーション -Opus:3つのモジュラーファイル-拡張可能なフレームワーク 5. リソース -キミ:14分、1.59ドル -ソネット:6分、1.87ドル -GPT-5: 27 分、5.04 ドル -作品:10分、10.46ドル そうは言っても、GPT-5 は多くの技術的なトリックを知っており、ベースラインではかなり有能なアクターであることがわかりますが、誤差範囲が高く、ポイントから逸脱するリスクが伴います (このタスクでは何度もそうでした)。 迅速なデバッグに使用するかもしれませんが、大規模なコードベースや分析タスクでは、現状では多くのガードレールを備えたkimiを好みます。
58.27K