gpt-oss-120b est tellement bon tie Gemini Pro 2.5 ici et est 98,9 % moins cher
Sakana AI
Sakana AI26 mai 2025
Suite à l’annonce de notre benchmark de raisonnement basé sur le Sudoku, nous avons évalué les derniers modèles pour suivre les améliorations de leurs capacités de raisonnement. Aujourd’hui, nous lançons le classement Sudoku-Bench : Nouveau rapport technique : Vous pouvez désormais suivre la progression des nouveaux modèles sur notre classement en direct. Parmi les modèles que nous avons évalués jusqu’à présent : l’o3 Mini High d’OpenAI est en tête du classement général. Il est intéressant de noter que Gemini 2.5 Pro fait mieux sur les puzzles 6x6 plus difficiles ! Cependant, o3 est le seul modèle qui résout l’un des Sudokus 9x9, mais seulement 2,9 % et seulement les Sudokus vanille. Surtout, AUCUN modèle testé ne peut encore conquérir les 9x9 nécessitant un raisonnement fort et créatif. Ce benchmark reste un grand défi ! Pour en savoir plus sur le benchmark, la méthodologie et nos conclusions, consultez notre rapport technique. Envie de tester un modèle sur Sudoku-Bench ? C’est simple ! Visitez le classement. Choisissez un puzzle. Nous générons une invite (puzzle + instructions) à coller dans n’importe quel modèle. Explorez également des exemples de traces de raisonnement tirées de nos tests !
> o3 est le seul modèle capable de résoudre n'importe quel Sudoku 9x9 gpt-oss-120b peut également résoudre des 9×9 (1,4 %). Le seul autre modèle sur peval qui a résolu des 9×9 est GPT 5
1,87K