我使用 Claude 進行了一些測試,對象是 GPT-OSS-120B、Qwen3-Coder-480B 和 Claude Opus 4,主要針對編程相關任務: 1. 閱讀並理解 Bitcoin Core GUI 倉庫 2. 在 C++ 中實現 PageRank 這是它的最終評價: "GPT-OSS-120B 提供了卓越的價值,使其成為希望大規模實施 AI 編程輔助的組織的明顯贏家。質量差異微小,不足以證明 Claude 的 54 倍價格溢價是合理的。" cc @sama @gdb
1. 閱讀並理解 Bitcoin Core GUI 倉庫 "測試結果顯示,GPT-OSS-120B 在代碼分析任務中提供了最佳的性能與成本平衡,而 Claude Opus 4 則以高價位提供了最全面的分析。"
2. PageRank 在 C++ 中的實現 "最佳平衡:GPT-OSS-120B - 良好的代碼質量 (10/11 分) - 最低成本 - 合理的響應時間 - 包含並行執行和測試" .. 摘要: - 對於生產代碼生成,GPT-OSS-120B 提供最佳價值 - 對於速度關鍵的任務,Qwen3-Coder-480B 提供最快的速度 - 對於最高質量的代碼,Claude Opus 4 提供最全面的實現
2.59K