Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tyto stopy uvažování mi nedají spát
vlevo: nový model OpenAI, který získal IMO zlato
vpravo: DeepSeek R1 na náhodné matematické úloze
musíte si uvědomit, že od loňského roku akademická obec vyprodukovala více než TISÍC článků o uvažování (pravděpodobně mnohem více). Prakticky všichni přemýšlíme o uvažování
ale všechny naše systémy produkují "myšlenkové stopy", které vpravo vypadají jako DeepSeek. Jsou neuvěřitelně, nepříjemně mnohomluvné a propalují žetony na hranici nedbalé rychlosti. Mnoho úvah je zbytečných a některé z nich jsou zcela nesprávné
Ale uvažování na levici, tato nová věc, je něco úplně jiného. Jednoznačně skoková změna funkce. potenciálně zcela odlišná metoda
je to mnohem blíže ke "skutečnému" uvažování. Žádné tokeny nepřijdou nazmar. pokud něco, je to výjimečně stručné; Hádal bych, že lidská řešení jsou více upovídaná než toto
Je zřejmé, že se děje něco velmi odlišného. možná OpenAI vyvinula zcela nový tréninkový proces RLVR. Možná je tam nějaký speciální sběr dat od odborníků. Možná začali penalizovat model za přemýšlení způsobem, který mu ve skutečnosti nějakým způsobem prospívá
opravdu fascinující věci... obecně mě to činí medvědím ohledně uvažování ve stylu R1


@marlboro_andres ano, několik:

19. 7. 2025
4/N Za druhé, příspěvky IMO jsou těžko ověřitelné, mnohastránkové korektury. Pokrok v této oblasti vyžaduje překročení paradigmatu RL jasných a ověřitelných odměn. Tímto způsobem jsme získali model, který může vytvářet složité, neprůstřelné argumenty na úrovni lidských matematiků.




152,27K
Top
Hodnocení
Oblíbené