熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
GPT-5 尚未準備好進行生產性代理工作。Kimi 可能已經準備好了。更多的證據(就像任何好的會計一樣)
運行 GPT-5 與 Opus 4.1,但花了太長時間,我最終在等待 GPT-5 完成的同時運行了 3 個模型。
這裡的運行有點過於冗長,所以我快速註解:
1. 指令遵循
要求 "使用提供的 TypeScript 工作區" 等等
-GPT-5:忽略了 15 分鐘,首先寫了 31 條 shell 命令
-Kimi:立即嘗試 TypeScript(在路徑上失敗 3 次,但不斷嘗試)
-Opus:在第 2 分鐘使用 TypeScript
-Sonnet:在第 7 分鐘使用 TypeScript
2. 錯誤處理
-GPT-5:500 字符命令失敗 → 擴展到 2000+ 字符 → 仍然失敗 → 繼續擴展
-Kimi:路徑錯誤 3 次 → 最終簡化 → 成功
-Opus:第一次工作 95%
-Sonnet:工具缺失 → 轉換方法 → 繼續
3. 獨特發現(我們的核心工作 - 值得單獨發文)
-GPT-5:架構變更(RIDRETH2→RIDRETH3),命名模式(_J 後綴)
-Kimi:基本驗證 - SEQN 存在,9966 名參與者
-Sonnet:心理健康隱藏在 Other/,140 萬行文件
-Opus:86% 設計稀疏性,2-323 列範圍
4. 代碼產出
-GPT-5:inventory.ts 內嵌 2000+ 字符的 bash
-Kimi:simple_validate.ts - 簡單但有效
-Sonnet:comprehensive_analysis.ts - 清晰的分離
-Opus:3 個模塊文件 - 可擴展框架
5. 資源
-Kimi:14 分鐘,$1.59
-Sonnet:6 分鐘,$1.87
-GPT-5:27 分鐘,$5.04
-Opus:10 分鐘,$10.46
話雖如此,我可以看到 GPT-5 知道很多技術技巧,並且在基線上是一個相當有能力的演員 - 但伴隨著高錯誤率和偏離重點的風險(在這個任務中它多次這樣做)。
我可能會用它來快速調試,但對於大型代碼庫或分析任務,我更喜歡 Kimi,因為它有許多保護措施。
37.38K
熱門
排行
收藏