GPPT-OSS-120b дуже хороший зв'язує Gemini Pro 2.5 тут і коштує на 98,9% дешевше
Sakana AI
Sakana AI26 трав. 2025 р.
Після оголошення про тест міркувань на основі судоку ми оцінюємо найновіші моделі, щоб відстежувати покращення їхніх можливостей міркування. Сьогодні ми запускаємо таблицю лідерів судоку-лавки: Новий технічний звіт: Тепер ви можете відстежувати прогрес нової моделі в нашій таблиці лідерів у реальному часі. З моделей, які ми порівняли на даний момент: o3 Mini High від OpenAI лідирує в загальному заліку. Цікаво, що Gemini 2.5 Pro краще справляється з найскладнішими головоломками 6x6! Тим не менш, o3 є єдиною моделлю, яка вирішує будь-який з судокусів 9x9, але тільки на 2,9% і тільки ванільних судоку. Важливо те, що ЖОДНА протестована модель ще не може підкорити 9x9, вимагаючи сильного, творчого мислення. Цей орієнтир залишається грандіозним викликом! Щоб глибше зануритися в бенчмарк, методологію та наші висновки, перегляньте наш технічний звіт. Хочете протестувати модель на Sudoku-Bench? Все дуже просто! Відвідайте таблицю лідерів. Вибери пазл. Генеруємо підказку (головоломка + інструкція) для вставки в будь-яку модель. Вивчіть також зразки слідів міркувань з наших тестів!
> o3 - єдина модель, яка вирішує будь-який з Судокус 9x9 GPT-OSS-120B також здатний розв'язувати 9×9 с (1,4%). єдина інша модель на Peval, яка вирішила будь-які 9×9 – це GPT 5
1,82K