Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Disse resonnerende sporene har holdt meg våken om natten
til venstre: ny OpenAI-modell som fikk IMO-gull
til høyre: DeepSeek R1 på et tilfeldig matematisk problem
du må innse at siden i fjor har akademia produsert over TUSEN artikler om resonnement (sannsynligvis mye mer). Vi tenker praktisk talt alle på resonnement
men alle systemene våre produserer "tenkespor" som ser ut som DeepSeek til høyre. de er utrolig, motbydelig ordrike, og brenner gjennom tokens i en grense til uaktsom hastighet. Mye av resonnementet er unødvendig, og noe av det er helt feil
Men resonnementet på venstresiden, denne nye tingen, er noe helt annet. helt klart en trinnvis funksjonsendring. potensielt en helt annen metode
det er så mye nærmere *faktisk* resonnement. Ingen tokens er bortkastet. om noe, er det usedvanlig kortfattet; Jeg vil tippe at menneskelige løsninger er mer detaljerte enn dette
Det er tydelig at noe helt annet er på gang. kanskje OpenAI utviklet en helt ny RLVR-treningsprosess. Kanskje det er en spesiell datainnsamling fra eksperter. kanskje de begynte å straffe modellen for å overtenke på en måte som faktisk gagner den på en eller annen måte
virkelig fascinerende greier... generelt gjør dette meg bearish på resonnementet i R1-stil


@marlboro_andres ja, noen få:

19. juli 2025
4/N For det andre er IMO-innsendinger vanskelige å verifisere, flersidige korrekturer. Fremgang her krever å gå utover RL-paradigmet med klare, verifiserbare belønninger. Ved å gjøre det har vi fått en modell som kan lage intrikate, vanntette argumenter på nivå med menneskelige matematikere.




152,05K
Topp
Rangering
Favoritter