DeepSeek har precis genomfört den typ av uppgradering som varje resonemangsmodell har låtsats ha. Istället för att dumpa ur en lång tankekedja och hoppas att den är begriplig, kör DeepSeek Math V2 en fullständig förhörsprocess utifrån sin egen logik. Den bygger ett bevis, attackerar det, kontrollerar attacken, kontrollerar checkaren, lagar bristerna och loopar tills den inte kan bryta sig själv längre. Den enda idén förändrade dess prestation helt. Här är vad den nivån av självgranskning ledde till: • Guldnivåprestation på IMO 2025 • Guldnivåprestation på CMO 2024 • 118/120 på Putnam 2024, högsta rapporterade poäng • Bättre resultat än GPT-5 Thinking och Gemini 2.5 Pro i de svåraste kategorierna Hemligheten är inte skalan. Det är arkitekturen kring modellen: — en verifierare som söker logiska luckor — en metaverifierare som ifrågasätter verifieraren — en bevisgenerator betingad för att undvika svagt resonemang — en slinga som tvingar varje del av systemet att bli skarpare Processen går som en kvarn: - Producera ett bevis - Testa det - Testa testaren - Reparera resonemanget -Upprepa De riktade sig mot det verkliga problemet inom matematiskt resonemang: en modell kan hitta rätt svar av fel skäl. Så DeepSeek utbildade en verifierare som bedömer resonemang, inte resultat....