Ці сліди міркувань не дають мені спати ночами ліворуч: нова модель OpenAI, яка отримала золото IMO праворуч: DeepSeek R1 на випадкову математичну задачу Ви повинні усвідомити, що з минулого року академічні кола випустили понад ТИСЯЧУ статей з міркувань (можливо, набагато більше). Практично всі ми думаємо про міркування але всі наші системи продукують «сліди мислення», які праворуч виглядають як DeepSeek. Вони неймовірно, огидно багатослівні, спалюють токени з гранично недбалою швидкістю. Багато міркувань непотрібні, а деякі з них зовсім невірні Але міркування лівих, ця нова річ – це щось зовсім інше. Очевидно, що це зміна функції кроку. потенційно зовсім інший метод Це набагато ближче до *фактичних* міркувань. Жодні токени не витрачаються даремно. у всякому разі, це надзвичайно стисло; Я думаю, що людські рішення більш багатослівні, ніж це Очевидно, що відбувається щось зовсім інше. можливо, OpenAI розробила абсолютно новий процес навчання RLVR. Можливо, є якийсь спеціальний збір даних від експертів. Можливо, вони почали карати модель за надмірне обмірковування таким чином, що це насправді якось вигідно їй дійсно захоплюючі речі... в цілому це змушує мене ставитися до міркувань в стилі R1
@marlboro_andres так, деякі з них:
Alexander Wei
Alexander Wei19 лип. 2025 р.
4/N По-друге, подання IMO є багатосторінковими доказами, які важко перевірити. Прогрес тут вимагає виходу за рамки парадигми RL чітких винагород, які можна перевірити. Таким чином, ми отримали модель, яка може створювати складні, водонепроникні аргументи на рівні людських математиків.
152,27K