Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ці сліди міркувань не дають мені спати ночами
ліворуч: нова модель OpenAI, яка отримала золото IMO
праворуч: DeepSeek R1 на випадкову математичну задачу
Ви повинні усвідомити, що з минулого року академічні кола випустили понад ТИСЯЧУ статей з міркувань (можливо, набагато більше). Практично всі ми думаємо про міркування
але всі наші системи продукують «сліди мислення», які праворуч виглядають як DeepSeek. Вони неймовірно, огидно багатослівні, спалюють токени з гранично недбалою швидкістю. Багато міркувань непотрібні, а деякі з них зовсім невірні
Але міркування лівих, ця нова річ – це щось зовсім інше. Очевидно, що це зміна функції кроку. потенційно зовсім інший метод
Це набагато ближче до *фактичних* міркувань. Жодні токени не витрачаються даремно. у всякому разі, це надзвичайно стисло; Я думаю, що людські рішення більш багатослівні, ніж це
Очевидно, що відбувається щось зовсім інше. можливо, OpenAI розробила абсолютно новий процес навчання RLVR. Можливо, є якийсь спеціальний збір даних від експертів. Можливо, вони почали карати модель за надмірне обмірковування таким чином, що це насправді якось вигідно їй
дійсно захоплюючі речі... в цілому це змушує мене ставитися до міркувань в стилі R1


@marlboro_andres так, деякі з них:

19 лип. 2025 р.
4/N По-друге, подання IMO є багатосторінковими доказами, які важко перевірити. Прогрес тут вимагає виходу за рамки парадигми RL чітких винагород, які можна перевірити. Таким чином, ми отримали модель, яка може створювати складні, водонепроникні аргументи на рівні людських математиків.




152,27K
Найкращі
Рейтинг
Вибране