deze redeneersporen houden me 's nachts wakker links: nieuw OpenAI-model dat IMO goud heeft gekregen rechts: DeepSeek R1 op een willekeurig wiskundeprobleem je moet je realiseren dat de academische wereld sinds vorig jaar meer dan duizend papers over redeneren heeft geproduceerd (waarschijnlijk veel meer). we denken praktisch allemaal na over redeneren maar al onze systemen produceren 'denksporen' die eruitzien als DeepSeek aan de rechterkant. ze zijn ongelooflijk, obnoxieus uitgebreid, en verbruiken tokens op een bijna nalatige manier. veel van de redenering is onnodig en een deel ervan is volledig onjuist maar de redenering aan de linkerkant, dit nieuwe ding, is iets heel anders. duidelijk een stapfunctie verandering. mogelijk een geheel andere methode het is zoveel dichter bij *werkelijke* redenering. er worden geen tokens verspild. als er iets is, is het uitzonderlijk beknopt; ik zou gokken dat menselijke oplossingen uitgebreider zijn dan dit duidelijk gebeurt er iets heel anders. misschien heeft OpenAI een volledig nieuw RLVR-trainingsproces ontwikkeld. misschien is er speciale gegevensverzameling van experts. misschien zijn ze de model gaan straffen voor overdenken op een manier die het op de een of andere manier daadwerkelijk ten goede komt echt fascinerende dingen... over het algemeen maakt dit me bearish op de R1-stijl redenering
@marlboro_andres ja, een paar:
Alexander Wei
Alexander Wei19 jul 2025
4/N Ten tweede zijn IMO-indieningen moeilijk te verifiëren, meerpagina's bewijzen. Vooruitgang hier vereist dat we verder gaan dan het RL-paradigma van duidelijke, verifieerbare beloningen. Door dit te doen, hebben we een model verkregen dat ingewikkelde, waterdichte argumenten kan formuleren op het niveau van menselijke wiskundigen.
152,28K