te ślady rozumowania nie dają mi spać w nocy po lewej: nowy model OpenAI, który zdobył IMO złoto po prawej: DeepSeek R1 na losowym problemie matematycznym musisz zrozumieć, że od zeszłego roku akademia wyprodukowała ponad TYSIĄC prac na temat rozumowania (prawdopodobnie znacznie więcej). wszyscy praktycznie myślimy o rozumowaniu ale wszystkie nasze systemy produkują 'ślady myślenia', które wyglądają jak DeepSeek po prawej. są niesamowicie, irytująco rozwlekłe, zużywając tokeny w granicach lekko niedbałego tempa. wiele z rozumowania jest niepotrzebnych, a niektóre z nich są całkowicie błędne ale rozumowanie po lewej, ta nowa rzecz, to coś zupełnie innego. wyraźnie zmiana w funkcji skokowej. potencjalnie zupełnie inna metoda jest znacznie bliżej *rzeczywistego* rozumowania. żadne tokeny nie są marnowane. jeśli już, jest wyjątkowo zwięzłe; zgaduję, że ludzkie rozwiązania są bardziej rozwlekłe niż to wyraźnie dzieje się coś bardzo innego. może OpenAI opracowało zupełnie nowy proces szkolenia RLVR. może jest jakaś specjalna zbiór danych od ekspertów. może zaczęli karać model za nadmierne myślenie w sposób, który w rzeczywistości przynosi mu korzyści naprawdę fascynujące rzeczy... ogólnie rzecz biorąc, sprawia, że jestem pesymistycznie nastawiony do rozumowania w stylu R1
@marlboro_andres tak, kilka:
Alexander Wei
Alexander Wei19 lip 2025
4/N Po drugie, zgłoszenia IMO są trudne do weryfikacji, wielostronicowe dowody. Postęp w tym zakresie wymaga wyjścia poza paradygmat RL z wyraźnymi, weryfikowalnymi nagrodami. Dzięki temu uzyskaliśmy model, który potrafi tworzyć skomplikowane, niepodważalne argumenty na poziomie ludzkich matematyków.
152,27K