GPT-5 还没有准备好进行生产性代理工作。Kimi 可能可以。更多的凭证(就像任何好的会计一样) 在 Opus 4.1 上运行 GPT-5,但花了太长时间,我最终在等待 GPT-5 完成时运行了 3 个模型。 这里的运行有点过于冗长,所以我快速注释: 1. 指令遵循 要求“使用提供的 TypeScript 工作区”等等 -GPT-5:忽略了 15 分钟,首先写了 31 个 shell 命令 -Kimi:立即尝试 TypeScript(在路径上失败 3 次,但继续尝试) -Opus:在第 2 分钟使用 TypeScript -Sonnet:在第 7 分钟使用 TypeScript 2. 错误处理 -GPT-5:500 字符命令失败 → 扩展到 2000+ 字符 → 仍然失败 → 不断扩展 -Kimi:路径错误 3 次 → 最终简化 → 成功 -Opus:第一次工作 95% -Sonnet:工具缺失 → 更换方法 → 继续 3. 独特发现(我们的核心工作 - 值得单独发帖) -GPT-5:模式变化(RIDRETH2→RIDRETH3),命名模式(_J 后缀) -Kimi:基本验证 - SEQN 存在,9966 名参与者 -Sonnet:心理健康隐藏在 Other/,140 万行文件 -Opus:86% 设计稀疏性,2-323 列范围 4. 生成的代码 -GPT-5:inventory.ts,内部嵌入 2000+ 字符的 bash -Kimi:simple_validate.ts - 简单但有效 -Sonnet:comprehensive_analysis.ts - 清晰分离 -Opus:3 个模块化文件 - 可扩展框架 5. 资源 -Kimi:14 分钟,$1.59 -Sonnet:6 分钟,$1.87 -GPT-5:27 分钟,$5.04 -Opus:10 分钟,$10.46 也就是说,我可以看到 GPT-5 知道很多技术技巧,并且在基线方面是一个相当有能力的参与者 - 但伴随着高错误率和偏离主题的风险(在这个任务中它多次这样做)。 我可能会用它进行快速调试,但对于大规模代码库或分析任务,我更喜欢 Kimi,配备许多保护措施。
37.37K