DeepSeek ha appena realizzato il tipo di aggiornamento che ogni modello di ragionamento ha finto di avere. Invece di scaricare una lunga catena di pensieri e sperare che abbia senso, DeepSeek Math V2 esegue un'interrogazione completa sulla propria logica. Costruisce una prova, la attacca, controlla l'attacco, controlla il controllore, ripara i difetti e ripete fino a quando non riesce più a rompersi. Quell'idea singola ha cambiato completamente le sue prestazioni. Ecco cosa ha prodotto quel livello di auto-scrutinio: • Prestazioni di livello oro all'IMO 2025 • Prestazioni di livello oro al CMO 2024 • 118/120 al Putnam 2024, il punteggio più alto riportato • Risultati migliori rispetto a GPT-5 Thinking e Gemini 2.5 Pro nelle categorie più difficili Il segreto non è la scala. È l'architettura attorno al modello: — un verificatore che cerca lacune logiche — un meta-verificatore che interroga il verificatore — un generatore di prove condizionato per evitare ragionamenti deboli — un ciclo che costringe ogni parte del sistema a diventare più affilata Il processo funziona come un macinino: - Produci una prova - Testala - Testa il tester - Ripara il ragionamento - Ripeti Hanno mirato al vero problema nel ragionamento matematico: un modello può arrivare alla risposta giusta per le ragioni sbagliate. Così DeepSeek ha addestrato un verificatore che valuta il ragionamento, non i risultati....