热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
gpt-oss-120b 太棒了
这里的 Gemini Pro 2.5 便宜 98.9%


2025年5月26日
继我们发布基于数独的推理基准测试公告后,我们一直在评估最新的模型,以跟踪其推理能力的改进。
今天,我们推出了数独基准排行榜:
新的技术报告:
您现在可以在我们的实时排行榜上跟踪新模型的进展。在我们迄今为止测试的模型中:OpenAI 的 o3 Mini High 总体表现领先。有趣的是,Gemini 2.5 Pro 在更难的 6x6 数独上表现更好!然而,o3 是唯一能够解决任何 9x9 数独的模型,但仅解决了 2.9%,而且仅限于普通数独。
关键是,目前测试的所有模型都无法征服需要强大、创造性推理的 9x9 数独。这一基准测试仍然是一个重大挑战!想深入了解基准测试、方法论和我们的发现,请查看我们的技术报告。
想在数独基准上测试模型吗?很简单!访问排行榜。选择一个谜题。我们会生成一个提示(谜题 + 指令),您可以将其粘贴到任何模型中。还可以探索我们测试中的示例推理轨迹!

> o3 是唯一能够解决任何 9x9 数独的模型
gpt-oss-120b 也能够解决 9×9(1.4%)。在 peval 上唯一解决了任何 9×9 的其他模型是 GPT 5
1.82K
热门
排行
收藏

