эти размышления не дают мне спать по ночам слева: новая модель OpenAI, которая получила IMO золото справа: DeepSeek R1 на случайной математической задаче вам нужно понять, что с прошлого года академия выпустила более тысячи статей по рассуждениям (возможно, даже больше). мы все практически думаем о рассуждениях но все наши системы производят 'следы мышления', которые выглядят как DeepSeek справа. они невероятно, раздражающе многословны, сжигая токены на грани небрежности. много рассуждений ненужны, а некоторые из них совершенно неверны но рассуждения слева, эта новая вещь, совершенно иное. явно изменение в виде ступенчатой функции. возможно, совершенно другой метод это гораздо ближе к *реальному* рассуждению. токены не тратятся впустую. если уж на то пошло, это исключительно лаконично; я бы предположил, что человеческие решения более многословны, чем это очевидно, что происходит что-то очень другое. возможно, OpenAI разработала совершенно новый процесс обучения RLVR. возможно, есть какая-то специальная сбор данных от экспертов. возможно, они начали наказывать модель за чрезмерное размышление таким образом, который на самом деле приносит ей пользу действительно увлекательные вещи... в общем, это заставляет меня быть пессимистом по поводу рассуждений в стиле R1
@marlboro_andres да, несколько:
Alexander Wei
Alexander Wei19 июл. 2025 г.
4/N Во-вторых, IMO-заявки являются труднодоказуемыми, многопользовательскими доказательствами. Прогресс здесь требует выхода за рамки парадигмы RL с четкими, проверяемыми вознаграждениями. Таким образом, мы получили модель, которая может создавать сложные, непробиваемые аргументы на уровне человеческих математиков.
152,28K