GPT-5 尚未準備好進行生產性代理工作。Kimi 可能已經準備好了。更多的證據(就像任何好的會計一樣) 運行 GPT-5 與 Opus 4.1,但花了太長時間,我最終在等待 GPT-5 完成的同時運行了 3 個模型。 這裡的運行有點過於冗長,所以我快速註解: 1. 指令遵循 要求 "使用提供的 TypeScript 工作區" 等等 -GPT-5:忽略了 15 分鐘,首先寫了 31 條 shell 命令 -Kimi:立即嘗試 TypeScript(在路徑上失敗 3 次,但不斷嘗試) -Opus:在第 2 分鐘使用 TypeScript -Sonnet:在第 7 分鐘使用 TypeScript 2. 錯誤處理 -GPT-5:500 字符命令失敗 → 擴展到 2000+ 字符 → 仍然失敗 → 繼續擴展 -Kimi:路徑錯誤 3 次 → 最終簡化 → 成功 -Opus:第一次工作 95% -Sonnet:工具缺失 → 轉換方法 → 繼續 3. 獨特發現(我們的核心工作 - 值得單獨發文) -GPT-5:架構變更(RIDRETH2→RIDRETH3),命名模式(_J 後綴) -Kimi:基本驗證 - SEQN 存在,9966 名參與者 -Sonnet:心理健康隱藏在 Other/,140 萬行文件 -Opus:86% 設計稀疏性,2-323 列範圍 4. 代碼產出 -GPT-5:inventory.ts 內嵌 2000+ 字符的 bash -Kimi:simple_validate.ts - 簡單但有效 -Sonnet:comprehensive_analysis.ts - 清晰的分離 -Opus:3 個模塊文件 - 可擴展框架 5. 資源 -Kimi:14 分鐘,$1.59 -Sonnet:6 分鐘,$1.87 -GPT-5:27 分鐘,$5.04 -Opus:10 分鐘,$10.46 話雖如此,我可以看到 GPT-5 知道很多技術技巧,並且在基線上是一個相當有能力的演員 - 但伴隨著高錯誤率和偏離重點的風險(在這個任務中它多次這樣做)。 我可能會用它來快速調試,但對於大型代碼庫或分析任務,我更喜歡 Kimi,因為它有許多保護措施。
37.38K