Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
te ślady rozumowania nie dają mi spać w nocy
po lewej: nowy model OpenAI, który zdobył IMO złoto
po prawej: DeepSeek R1 na losowym problemie matematycznym
musisz zrozumieć, że od zeszłego roku akademia wyprodukowała ponad TYSIĄC prac na temat rozumowania (prawdopodobnie znacznie więcej). wszyscy praktycznie myślimy o rozumowaniu
ale wszystkie nasze systemy produkują 'ślady myślenia', które wyglądają jak DeepSeek po prawej. są niesamowicie, irytująco rozwlekłe, zużywając tokeny w granicach lekko niedbałego tempa. wiele z rozumowania jest niepotrzebnych, a niektóre z nich są całkowicie błędne
ale rozumowanie po lewej, ta nowa rzecz, to coś zupełnie innego. wyraźnie zmiana w funkcji skokowej. potencjalnie zupełnie inna metoda
jest znacznie bliżej *rzeczywistego* rozumowania. żadne tokeny nie są marnowane. jeśli już, jest wyjątkowo zwięzłe; zgaduję, że ludzkie rozwiązania są bardziej rozwlekłe niż to
wyraźnie dzieje się coś bardzo innego. może OpenAI opracowało zupełnie nowy proces szkolenia RLVR. może jest jakaś specjalna zbiór danych od ekspertów. może zaczęli karać model za nadmierne myślenie w sposób, który w rzeczywistości przynosi mu korzyści
naprawdę fascynujące rzeczy... ogólnie rzecz biorąc, sprawia, że jestem pesymistycznie nastawiony do rozumowania w stylu R1


@marlboro_andres tak, kilka:

19 lip 2025
4/N Po drugie, zgłoszenia IMO są trudne do weryfikacji, wielostronicowe dowody. Postęp w tym zakresie wymaga wyjścia poza paradygmat RL z wyraźnymi, weryfikowalnymi nagrodami. Dzięki temu uzyskaliśmy model, który potrafi tworzyć skomplikowane, niepodważalne argumenty na poziomie ludzkich matematyków.




152,27K
Najlepsze
Ranking
Ulubione