一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

GPT-5 尚未準備好進行生產性代理工作。Kimi 可能已經準備好了。更多的證據（就像任何好的會計一樣）運行 GPT-5 與 Opus 4.1，但花了太長時間，我最終在等待 GPT-5 完成的同時運行了 3 個模型。這裡的運行有點過於冗長，所以我快速註解： 1. 指令遵循要求 "使用提供的 TypeScript 工作區" 等等 -GPT-5：忽略了 15 分鐘，首先寫了 31 條 shell 命令 -Kimi：立即嘗試 TypeScript（在路徑上失敗 3 次，但不斷嘗試） -Opus：在第 2 分鐘使用 TypeScript -Sonnet：在第 7 分鐘使用 TypeScript 2. 錯誤處理 -GPT-5：500 字符命令失敗 → 擴展到 2000+ 字符 → 仍然失敗 → 繼續擴展 -Kimi：路徑錯誤 3 次 → 最終簡化 → 成功 -Opus：第一次工作 95% -Sonnet：工具缺失 → 轉換方法 → 繼續 3. 獨特發現（我們的核心工作 - 值得單獨發文） -GPT-5：架構變更（RIDRETH2→RIDRETH3），命名模式（_J 後綴） -Kimi：基本驗證 - SEQN 存在，9966 名參與者 -Sonnet：心理健康隱藏在 Other/，140 萬行文件 -Opus：86% 設計稀疏性，2-323 列範圍 4. 代碼產出 -GPT-5：inventory.ts 內嵌 2000+ 字符的 bash -Kimi：simple_validate.ts - 簡單但有效 -Sonnet：comprehensive_analysis.ts - 清晰的分離 -Opus：3 個模塊文件 - 可擴展框架 5. 資源 -Kimi：14 分鐘，$1.59 -Sonnet：6 分鐘，$1.87 -GPT-5：27 分鐘，$5.04 -Opus：10 分鐘，$10.46 話雖如此，我可以看到 GPT-5 知道很多技術技巧，並且在基線上是一個相當有能力的演員 - 但伴隨著高錯誤率和偏離重點的風險（在這個任務中它多次這樣做）。我可能會用它來快速調試，但對於大型代碼庫或分析任務，我更喜歡 Kimi，因為它有許多保護措施。

37.38K