gpt-oss-120b 太棒了 这里的 Gemini Pro 2.5 便宜 98.9%
Sakana AI
Sakana AI2025年5月26日
继我们发布基于数独的推理基准测试公告后,我们一直在评估最新的模型,以跟踪其推理能力的改进。 今天,我们推出了数独基准排行榜: 新的技术报告: 您现在可以在我们的实时排行榜上跟踪新模型的进展。在我们迄今为止测试的模型中:OpenAI 的 o3 Mini High 总体表现领先。有趣的是,Gemini 2.5 Pro 在更难的 6x6 数独上表现更好!然而,o3 是唯一能够解决任何 9x9 数独的模型,但仅解决了 2.9%,而且仅限于普通数独。 关键是,目前测试的所有模型都无法征服需要强大、创造性推理的 9x9 数独。这一基准测试仍然是一个重大挑战!想深入了解基准测试、方法论和我们的发现,请查看我们的技术报告。 想在数独基准上测试模型吗?很简单!访问排行榜。选择一个谜题。我们会生成一个提示(谜题 + 指令),您可以将其粘贴到任何模型中。还可以探索我们测试中的示例推理轨迹!
> o3 是唯一能够解决任何 9x9 数独的模型 gpt-oss-120b 也能够解决 9×9(1.4%)。在 peval 上唯一解决了任何 9×9 的其他模型是 GPT 5
1.82K