Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
deze redeneersporen houden me 's nachts wakker
links: nieuw OpenAI-model dat IMO goud heeft gekregen
rechts: DeepSeek R1 op een willekeurig wiskundeprobleem
je moet je realiseren dat de academische wereld sinds vorig jaar meer dan duizend papers over redeneren heeft geproduceerd (waarschijnlijk veel meer). we denken praktisch allemaal na over redeneren
maar al onze systemen produceren 'denksporen' die eruitzien als DeepSeek aan de rechterkant. ze zijn ongelooflijk, obnoxieus uitgebreid, en verbruiken tokens op een bijna nalatige manier. veel van de redenering is onnodig en een deel ervan is volledig onjuist
maar de redenering aan de linkerkant, dit nieuwe ding, is iets heel anders. duidelijk een stapfunctie verandering. mogelijk een geheel andere methode
het is zoveel dichter bij *werkelijke* redenering. er worden geen tokens verspild. als er iets is, is het uitzonderlijk beknopt; ik zou gokken dat menselijke oplossingen uitgebreider zijn dan dit
duidelijk gebeurt er iets heel anders. misschien heeft OpenAI een volledig nieuw RLVR-trainingsproces ontwikkeld. misschien is er speciale gegevensverzameling van experts. misschien zijn ze de model gaan straffen voor overdenken op een manier die het op de een of andere manier daadwerkelijk ten goede komt
echt fascinerende dingen... over het algemeen maakt dit me bearish op de R1-stijl redenering


@marlboro_andres ja, een paar:

19 jul 2025
4/N Ten tweede zijn IMO-indieningen moeilijk te verifiëren, meerpagina's bewijzen. Vooruitgang hier vereist dat we verder gaan dan het RL-paradigma van duidelijke, verifieerbare beloningen. Door dit te doen, hebben we een model verkregen dat ingewikkelde, waterdichte argumenten kan formuleren op het niveau van menselijke wiskundigen.




152,28K
Boven
Positie
Favorieten