gpt-oss-120b este atât de bun leagă Gemini Pro 2.5 aici și este cu 98,9% mai ieftin
Sakana AI
Sakana AI26 mai 2025
În urma anunțului nostru de referință de raționament bazat pe Sudoku, am evaluat cele mai recente modele pentru a urmări îmbunătățirile capacităților lor de raționament. Astăzi, lansăm Sudoku-Bench Leaderboard: Raport tehnic nou: Acum poți urmări progresul noilor modele în Clasamentul nostru live. Dintre modelele pe care le-am evaluat până acum: o3 Mini High de la OpenAI conduce la general. Interesant este că Gemini 2.5 Pro se descurcă mai bine la puzzle-urile 6x6 mai grele! Cu toate acestea, o3 este singurul model care rezolvă oricare dintre Sudokus-urile 9x9, dar doar 2,9% și doar Sudoku vanilie. În mod crucial, NICIUN model testat nu poate cuceri 9x9 care necesită un raționament puternic și creativ. Acest benchmark rămâne o mare provocare! Pentru o analiză mai profundă a benchmark-ului, metodologiei și constatărilor noastre, consultați raportul nostru tehnic. Doriți să testați un model pe Sudoku-Bench? Este simplu! Vizitează clasamentul. Alege un puzzle. Generăm un prompt (puzzle + instrucțiuni) pentru a lipi în orice model. Explorați și exemple de urme de raționament din testele noastre!
> o3 este singurul model care rezolvă oricare dintre Sudokus-urile 9x9 GPT-OSS-120B este, de asemenea, capabil să rezolve 9×9 (1,4%). singurul alt model de pe peval care a rezolvat orice 9×9 este GPT 5
1,82K