一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

GPT-5 还没有准备好进行生产性代理工作。Kimi 可能可以。更多的凭证（就像任何好的会计一样）在 Opus 4.1 上运行 GPT-5，但花了太长时间，我最终在等待 GPT-5 完成时运行了 3 个模型。这里的运行有点过于冗长，所以我快速注释： 1. 指令遵循要求“使用提供的 TypeScript 工作区”等等 -GPT-5：忽略了 15 分钟，首先写了 31 个 shell 命令 -Kimi：立即尝试 TypeScript（在路径上失败 3 次，但继续尝试） -Opus：在第 2 分钟使用 TypeScript -Sonnet：在第 7 分钟使用 TypeScript 2. 错误处理 -GPT-5：500 字符命令失败 → 扩展到 2000+ 字符 → 仍然失败 → 不断扩展 -Kimi：路径错误 3 次 → 最终简化 → 成功 -Opus：第一次工作 95% -Sonnet：工具缺失 → 更换方法 → 继续 3. 独特发现（我们的核心工作 - 值得单独发帖） -GPT-5：模式变化（RIDRETH2→RIDRETH3），命名模式（_J 后缀） -Kimi：基本验证 - SEQN 存在，9966 名参与者 -Sonnet：心理健康隐藏在 Other/，140 万行文件 -Opus：86% 设计稀疏性，2-323 列范围 4. 生成的代码 -GPT-5：inventory.ts，内部嵌入 2000+ 字符的 bash -Kimi：simple_validate.ts - 简单但有效 -Sonnet：comprehensive_analysis.ts - 清晰分离 -Opus：3 个模块化文件 - 可扩展框架 5. 资源 -Kimi：14 分钟，$1.59 -Sonnet：6 分钟，$1.87 -GPT-5：27 分钟，$5.04 -Opus：10 分钟，$10.46 也就是说，我可以看到 GPT-5 知道很多技术技巧，并且在基线方面是一个相当有能力的参与者 - 但伴随着高错误率和偏离主题的风险（在这个任务中它多次这样做）。我可能会用它进行快速调试，但对于大规模代码库或分析任务，我更喜欢 Kimi，配备许多保护措施。

37.37K