Disse resonnerende sporene har holdt meg våken om natten til venstre: ny OpenAI-modell som fikk IMO-gull til høyre: DeepSeek R1 på et tilfeldig matematisk problem du må innse at siden i fjor har akademia produsert over TUSEN artikler om resonnement (sannsynligvis mye mer). Vi tenker praktisk talt alle på resonnement men alle systemene våre produserer "tenkespor" som ser ut som DeepSeek til høyre. de er utrolig, motbydelig ordrike, og brenner gjennom tokens i en grense til uaktsom hastighet. Mye av resonnementet er unødvendig, og noe av det er helt feil Men resonnementet på venstresiden, denne nye tingen, er noe helt annet. helt klart en trinnvis funksjonsendring. potensielt en helt annen metode det er så mye nærmere *faktisk* resonnement. Ingen tokens er bortkastet. om noe, er det usedvanlig kortfattet; Jeg vil tippe at menneskelige løsninger er mer detaljerte enn dette Det er tydelig at noe helt annet er på gang. kanskje OpenAI utviklet en helt ny RLVR-treningsprosess. Kanskje det er en spesiell datainnsamling fra eksperter. kanskje de begynte å straffe modellen for å overtenke på en måte som faktisk gagner den på en eller annen måte virkelig fascinerende greier... generelt gjør dette meg bearish på resonnementet i R1-stil
@marlboro_andres ja, noen få:
Alexander Wei
Alexander Wei19. juli 2025
4/N For det andre er IMO-innsendinger vanskelige å verifisere, flersidige korrekturer. Fremgang her krever å gå utover RL-paradigmet med klare, verifiserbare belønninger. Ved å gjøre det har vi fått en modell som kan lage intrikate, vanntette argumenter på nivå med menneskelige matematikere.
152,05K