Dessa resonemangsspår har hållit mig vaken om nätterna till vänster: ny OpenAI-modell som fick IMO-guld till höger: DeepSeek R1 på ett slumpmässigt matematiskt problem du måste inse att sedan förra året har den akademiska världen producerat över tusen artiklar om resonemang (förmodligen mycket mer). Vi tänker praktiskt taget alla på resonemang men alla våra system producerar "tankespår" som ser ut som DeepSeek till höger. De är otroligt, motbjudande mångordiga och bränner igenom tokens i en på gränsen till försumlig takt. En hel del av resonemangen är onödiga och en del av det är helt felaktigt Men vänsterns resonemang, detta nya, är något helt annat. Helt klart ett steg funktionsförändring. Potentiellt en helt annan metod Det är så mycket närmare *faktiskt* resonemang. Inga tokens går till spillo. Om något är det exceptionellt kortfattat; Jag skulle gissa att mänskliga lösningar är mer mångordiga än så här Det är tydligt att det är något helt annat på gång. kanske OpenAI utvecklade en helt ny RLVR-träningsprocess. Kanske finns det någon speciell datainsamling från experter. Kanske började de straffa modellen för att tänka för mycket på ett sätt som faktiskt gynnar den på något sätt verkligen fascinerande grejer ... i allmänhet gör detta mig baisse på R1-stilens resonemang
@marlboro_andres ja, några:
Alexander Wei
Alexander Wei19 juli 2025
För det andra är IMO:s inlagor svåra att verifiera, flersidiga korrektur. Framsteg här kräver att man går bortom RL-paradigmet med tydliga, verifierbara belöningar. Genom att göra det har vi fått en modell som kan skapa intrikata, vattentäta argument på mänskliga matematikers nivå.
152,32K