Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
эти размышления не дают мне спать по ночам
слева: новая модель OpenAI, которая получила IMO золото
справа: DeepSeek R1 на случайной математической задаче
вам нужно понять, что с прошлого года академия выпустила более тысячи статей по рассуждениям (возможно, даже больше). мы все практически думаем о рассуждениях
но все наши системы производят 'следы мышления', которые выглядят как DeepSeek справа. они невероятно, раздражающе многословны, сжигая токены на грани небрежности. много рассуждений ненужны, а некоторые из них совершенно неверны
но рассуждения слева, эта новая вещь, совершенно иное. явно изменение в виде ступенчатой функции. возможно, совершенно другой метод
это гораздо ближе к *реальному* рассуждению. токены не тратятся впустую. если уж на то пошло, это исключительно лаконично; я бы предположил, что человеческие решения более многословны, чем это
очевидно, что происходит что-то очень другое. возможно, OpenAI разработала совершенно новый процесс обучения RLVR. возможно, есть какая-то специальная сбор данных от экспертов. возможно, они начали наказывать модель за чрезмерное размышление таким образом, который на самом деле приносит ей пользу
действительно увлекательные вещи... в общем, это заставляет меня быть пессимистом по поводу рассуждений в стиле R1


@marlboro_andres да, несколько:

19 июл. 2025 г.
4/N Во-вторых, IMO-заявки являются труднодоказуемыми, многопользовательскими доказательствами. Прогресс здесь требует выхода за рамки парадигмы RL с четкими, проверяемыми вознаграждениями. Таким образом, мы получили модель, которая может создавать сложные, непробиваемые аргументы на уровне человеческих математиков.




152,28K
Топ
Рейтинг
Избранное