Tyto stopy uvažování mi nedají spát vlevo: nový model OpenAI, který získal IMO zlato vpravo: DeepSeek R1 na náhodné matematické úloze musíte si uvědomit, že od loňského roku akademická obec vyprodukovala více než TISÍC článků o uvažování (pravděpodobně mnohem více). Prakticky všichni přemýšlíme o uvažování ale všechny naše systémy produkují "myšlenkové stopy", které vpravo vypadají jako DeepSeek. Jsou neuvěřitelně, nepříjemně mnohomluvné a propalují žetony na hranici nedbalé rychlosti. Mnoho úvah je zbytečných a některé z nich jsou zcela nesprávné Ale uvažování na levici, tato nová věc, je něco úplně jiného. Jednoznačně skoková změna funkce. potenciálně zcela odlišná metoda je to mnohem blíže ke "skutečnému" uvažování. Žádné tokeny nepřijdou nazmar. pokud něco, je to výjimečně stručné; Hádal bych, že lidská řešení jsou více upovídaná než toto Je zřejmé, že se děje něco velmi odlišného. možná OpenAI vyvinula zcela nový tréninkový proces RLVR. Možná je tam nějaký speciální sběr dat od odborníků. Možná začali penalizovat model za přemýšlení způsobem, který mu ve skutečnosti nějakým způsobem prospívá opravdu fascinující věci... obecně mě to činí medvědím ohledně uvažování ve stylu R1
@marlboro_andres ano, několik:
Alexander Wei
Alexander Wei19. 7. 2025
4/N Za druhé, příspěvky IMO jsou těžko ověřitelné, mnohastránkové korektury. Pokrok v této oblasti vyžaduje překročení paradigmatu RL jasných a ověřitelných odměn. Tímto způsobem jsme získali model, který může vytvářet složité, neprůstřelné argumenty na úrovni lidských matematiků.
152,27K