DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

Aceste urme de raționament m-au ținut treaz noaptea în stânga: noul model OpenAI care a obținut aurul IMO în dreapta: DeepSeek R1 despre o problemă de matematică aleatorie trebuie să vă dați seama că de anul trecut mediul academic a produs peste o mie de lucrări despre raționament (probabil mult mai multe). practic ne gândim cu toții la raționament dar toate sistemele noastre produc "urme de gândire" care arată ca DeepSeek în dreapta. sunt incredibil, neplăcut de verboase, arzând jetoane la o rată de neglijență la limită. O mare parte din raționament este inutil și unele dintre ele sunt complet incorecte Dar raționamentul de stânga, acest lucru nou, este cu totul altceva. în mod clar o schimbare a funcției în trepte. potențial o metodă complet diferită este mult mai aproape de raționamentul *real*. niciun jeton nu este irosit. în orice caz, este excepțional de concis; Cred că soluțiile umane sunt mai detaliate decât atât în mod clar se întâmplă ceva foarte diferit. poate că OpenAI a dezvoltat un proces de antrenament RLVR complet nou. poate că există o colectare specială de date de la experți. Poate că au început să penalizeze modelul pentru gândirea excesivă într-un mod care îl avantajează cumva lucruri cu adevărat fascinante... în general, acest lucru mă face să fiu pesimist în ceea ce privește raționamentul de tip R1

@marlboro_andres da, câteva:

152,29K

Limită superioară

Clasament

Favorite

La modă pe lanț

La modă pe X

Principalele finanțări recente

Cele mai importante