Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
GPPT-OSS-120b дуже хороший
зв'язує Gemini Pro 2.5 тут і коштує на 98,9% дешевше


26 трав. 2025 р.
Після оголошення про тест міркувань на основі судоку ми оцінюємо найновіші моделі, щоб відстежувати покращення їхніх можливостей міркування.
Сьогодні ми запускаємо таблицю лідерів судоку-лавки:
Новий технічний звіт:
Тепер ви можете відстежувати прогрес нової моделі в нашій таблиці лідерів у реальному часі. З моделей, які ми порівняли на даний момент: o3 Mini High від OpenAI лідирує в загальному заліку. Цікаво, що Gemini 2.5 Pro краще справляється з найскладнішими головоломками 6x6! Тим не менш, o3 є єдиною моделлю, яка вирішує будь-який з судокусів 9x9, але тільки на 2,9% і тільки ванільних судоку.
Важливо те, що ЖОДНА протестована модель ще не може підкорити 9x9, вимагаючи сильного, творчого мислення. Цей орієнтир залишається грандіозним викликом! Щоб глибше зануритися в бенчмарк, методологію та наші висновки, перегляньте наш технічний звіт.
Хочете протестувати модель на Sudoku-Bench? Все дуже просто! Відвідайте таблицю лідерів. Вибери пазл. Генеруємо підказку (головоломка + інструкція) для вставки в будь-яку модель. Вивчіть також зразки слідів міркувань з наших тестів!

> o3 - єдина модель, яка вирішує будь-який з Судокус 9x9
GPT-OSS-120B також здатний розв'язувати 9×9 с (1,4%). єдина інша модель на Peval, яка вирішила будь-які 9×9 – це GPT 5
1,82K
Найкращі
Рейтинг
Вибране

