Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Aceste urme de raționament m-au ținut treaz noaptea
în stânga: noul model OpenAI care a obținut aurul IMO
în dreapta: DeepSeek R1 despre o problemă de matematică aleatorie
trebuie să vă dați seama că de anul trecut mediul academic a produs peste o mie de lucrări despre raționament (probabil mult mai multe). practic ne gândim cu toții la raționament
dar toate sistemele noastre produc "urme de gândire" care arată ca DeepSeek în dreapta. sunt incredibil, neplăcut de verboase, arzând jetoane la o rată de neglijență la limită. O mare parte din raționament este inutil și unele dintre ele sunt complet incorecte
Dar raționamentul de stânga, acest lucru nou, este cu totul altceva. în mod clar o schimbare a funcției în trepte. potențial o metodă complet diferită
este mult mai aproape de raționamentul *real*. niciun jeton nu este irosit. în orice caz, este excepțional de concis; Cred că soluțiile umane sunt mai detaliate decât atât
în mod clar se întâmplă ceva foarte diferit. poate că OpenAI a dezvoltat un proces de antrenament RLVR complet nou. poate că există o colectare specială de date de la experți. Poate că au început să penalizeze modelul pentru gândirea excesivă într-un mod care îl avantajează cumva
lucruri cu adevărat fascinante... în general, acest lucru mă face să fiu pesimist în ceea ce privește raționamentul de tip R1


@marlboro_andres da, câteva:

19 iul. 2025
4/N În al doilea rând, trimiterile IMO sunt dovezi greu de verificat, de mai multe pagini. Progresul aici cere depășirea paradigmei RL a recompenselor clare și verificabile. Procedând astfel, am obținut un model care poate crea argumente complicate și etanșe la nivelul matematicienilor umani.




152,29K
Limită superioară
Clasament
Favorite