Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
gpt-oss-120b este atât de bun
leagă Gemini Pro 2.5 aici și este cu 98,9% mai ieftin


26 mai 2025
În urma anunțului nostru de referință de raționament bazat pe Sudoku, am evaluat cele mai recente modele pentru a urmări îmbunătățirile capacităților lor de raționament.
Astăzi, lansăm Sudoku-Bench Leaderboard:
Raport tehnic nou:
Acum poți urmări progresul noilor modele în Clasamentul nostru live. Dintre modelele pe care le-am evaluat până acum: o3 Mini High de la OpenAI conduce la general. Interesant este că Gemini 2.5 Pro se descurcă mai bine la puzzle-urile 6x6 mai grele! Cu toate acestea, o3 este singurul model care rezolvă oricare dintre Sudokus-urile 9x9, dar doar 2,9% și doar Sudoku vanilie.
În mod crucial, NICIUN model testat nu poate cuceri 9x9 care necesită un raționament puternic și creativ. Acest benchmark rămâne o mare provocare! Pentru o analiză mai profundă a benchmark-ului, metodologiei și constatărilor noastre, consultați raportul nostru tehnic.
Doriți să testați un model pe Sudoku-Bench? Este simplu! Vizitează clasamentul. Alege un puzzle. Generăm un prompt (puzzle + instrucțiuni) pentru a lipi în orice model. Explorați și exemple de urme de raționament din testele noastre!

> o3 este singurul model care rezolvă oricare dintre Sudokus-urile 9x9
GPT-OSS-120B este, de asemenea, capabil să rezolve 9×9 (1,4%). singurul alt model de pe peval care a rezolvat orice 9×9 este GPT 5
1,82K
Limită superioară
Clasament
Favorite

