Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

te ślady rozumowania nie dają mi spać w nocy po lewej: nowy model OpenAI, który zdobył IMO złoto po prawej: DeepSeek R1 na losowym problemie matematycznym musisz zrozumieć, że od zeszłego roku akademia wyprodukowała ponad TYSIĄC prac na temat rozumowania (prawdopodobnie znacznie więcej). wszyscy praktycznie myślimy o rozumowaniu ale wszystkie nasze systemy produkują 'ślady myślenia', które wyglądają jak DeepSeek po prawej. są niesamowicie, irytująco rozwlekłe, zużywając tokeny w granicach lekko niedbałego tempa. wiele z rozumowania jest niepotrzebnych, a niektóre z nich są całkowicie błędne ale rozumowanie po lewej, ta nowa rzecz, to coś zupełnie innego. wyraźnie zmiana w funkcji skokowej. potencjalnie zupełnie inna metoda jest znacznie bliżej *rzeczywistego* rozumowania. żadne tokeny nie są marnowane. jeśli już, jest wyjątkowo zwięzłe; zgaduję, że ludzkie rozwiązania są bardziej rozwlekłe niż to wyraźnie dzieje się coś bardzo innego. może OpenAI opracowało zupełnie nowy proces szkolenia RLVR. może jest jakaś specjalna zbiór danych od ekspertów. może zaczęli karać model za nadmierne myślenie w sposób, który w rzeczywistości przynosi mu korzyści naprawdę fascynujące rzeczy... ogólnie rzecz biorąc, sprawia, że jestem pesymistycznie nastawiony do rozumowania w stylu R1

@marlboro_andres tak, kilka:

152,27K

Najlepsze

Ranking

Ulubione

Trendy onchain

Trendy na X

Niedawne największe finansowanie

Najbardziej godne uwagi