DeepSeek har nettopp gjennomført den typen oppgradering som alle resonnementmodeller har latet som de har. I stedet for å kaste ut en lang tankerekke og håpe at det gir mening, kjører DeepSeek Math V2 en full undersøkelse basert på sin egen logikk. Den bygger et bevis, angriper det, sjekker angrepet, sjekker sjekkeren, feilene og looper til den ikke kan bryte seg selv lenger. Den ene ideen endret ytelsen fullstendig. Her er hva dette nivået av selvgranskning førte til: • Gull-nivå ytelse på IMO 2025 • Gullnivåprestasjoner på CMO 2024 • 118/120 på Putnam 2024, høyeste rapporterte poengsum • Bedre resultater enn GPT-5 Thinking og Gemini 2.5 Pro i de vanskeligste kategoriene Hemmeligheten er ikke skala. Det er arkitekturen rundt modellen: — en verifikator som leter etter logiske hull — en meta-verifikator som stiller spørsmål til verifikatoren — en bevisgenerator betinget til å unngå svak resonnement — en løkke som tvinger alle deler av systemet til å bli skarpere Prosessen går som en kvern: - Produsere et bevis - Test det - Test testeren - Reparere resonnementet -Gjenta De rettet seg mot det virkelige problemet i matematisk resonnement: en modell kan treffe det riktige svaret av feil grunner. Så DeepSeek trente en verifikator som vurderer resonnement, ikke resultater....