Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Noam Brown
Исследование @OpenAI рассуждений | Соавтор сверхчеловеческих покерных ИИ Libratus/Pluribus, ИИ CICERO Diplomacy и моделей рассуждений OpenAI o3 / o1 / 🍓
Ниже представлен глубокий анализ того, почему самоигра работает для двухигроковых нулевых сумм (2p0s) игр, таких как Го/Покер/Звездные войны, но ее гораздо сложнее использовать в "реальных" областях. Кратко: самоигра сходится к минимаксу в 2p0s играх, а минимакс действительно полезен в этих играх.
Каждая конечная 2p0s игра имеет минимаксное равновесие, которое по сути является непобедимой стратегией в ожидании (при условии, что игроки чередуют стороны). Например, в камень-ножницы-бумага минимакс составляет 1/3 на каждое действие.
Является ли минимакс тем, что нам нужно? Не обязательно. Если вы играете по минимаксу в камень-ножницы-бумага, когда стратегии большинства противников — "всегда бросать камень", то вы явно не оптимальны, даже если не проигрываете в ожидании. Это особенно важно в игре, такой как покер, потому что играя по минимаксу, вы можете не заработать столько денег на слабых игроках, сколько могли бы, если бы максимально их эксплуатировали.
Но гарантия "вы не проиграете в ожидании" действительно приятна. А в таких играх, как шахматы и Го, разница между стратегией минимакса и стратегией, которая оптимально эксплуатирует популяцию противников, незначительна. По этой причине минимакс обычно считается целью для двухигроковой нулевой суммы. Даже в покере общепринятая мудрость среди лучших профессионалов заключается в том, чтобы играть по минимаксу (оптимально с точки зрения теории игр), а затем отклоняться только в том случае, если вы заметите явные слабости у противника.
Звуковая самоигра, даже с нуля, гарантированно сойдется к минимаксному равновесию в конечных 2p0s играх. Это удивительно! Просто увеличив память и вычисления, и без человеческих данных, мы можем прийти к стратегии, которая непобедима в ожидании.
А что насчет не-2p0s игр? К сожалению, чистая самоигра, без человеческих данных, больше не гарантирует сходиться к полезной стратегии. Это можно четко увидеть в игре Ультиматум. Алиса должна предложить Бобу $0-100. Затем Боб принимает или отклоняет. Если Боб принимает, деньги делятся в соответствии с предложением Алисы. Если Боб отклоняет, оба получают $0.
Равновесие (в частности, подигровое совершенное равновесие) стратегии заключается в том, чтобы предложить 1 цент, и чтобы Боб принял. Но в реальном мире люди не так рациональны. Если бы Алиса попыталась использовать эту стратегию с реальными людьми, она бы в итоге получила очень мало денег. Самоигра становится отвязанной от того, что мы, как люди, считаем полезным.
Многие люди предложили игры, такие как "учитель LLM предлагает сложные математические задачи, а студент LLM пытается их решить", чтобы достичь обучения через самоигру, но это сталкивается с аналогичными проблемами, как в игре Ультиматум, где равновесие отвязано от того, что мы, как люди, считаем полезным.
Какова должна быть награда для учителя в такой игре? Если это 2p0s, то учитель получает награду, если студент не смог решить задачу, так что учитель будет задавать невозможные задачи. Хорошо, а если мы вознаградим его за 50% успеха студента? Тогда учитель мог бы просто подбросить монету и спросить студента, выпала ли решка. Или учитель мог бы попросить студента расшифровать сообщение с помощью исчерпывающего поиска ключа. Формирование награды для достижения желаемого поведения становится серьезной проблемой. Это не проблема в 2p0s играх.
Я действительно верю в самоигру. Она предоставляет бесконечный источник обучения и постоянно сопоставляет агента с равным по навыкам соперником. Мы также видели, как это работает в некоторых сложных не-2p0s условиях, таких как Дипломатия и Ханаби. Но применение этого вне 2p0s игр гораздо сложнее, чем это было для Го, Покера, Доты и Звездных войн.


Noam Brown21 окт. 2025 г.
Самообучение так хорошо работает в шахматах, го и покере, потому что эти игры являются двухигроковыми нулевыми суммами. Это упрощает многие проблемы. Реальный мир более запутан, поэтому мы еще не видели много успехов самообучения в LLM.
Кстати, @karpathy отлично справился, и я в основном с ним согласен!
277,4K
Самообучение так хорошо работает в шахматах, го и покере, потому что эти игры являются двухигроковыми нулевыми суммами. Это упрощает многие проблемы. Реальный мир более запутан, поэтому мы еще не видели много успехов самообучения в LLM.
Кстати, @karpathy отлично справился, и я в основном с ним согласен!

Dwarkesh Patel21 окт. 2025 г.
.@karpathy говорит, что LLM в настоящее время не имеют культурного накопления и самоигры, которые вывели людей из саванны:
Культура: > “Почему LLM не может написать книгу для других LLM? Почему другие LLM не могут прочитать книгу этого LLM и быть вдохновленными ею или шокированными ею?”
Самоигра: > “Это чрезвычайно мощно. Эволюция имеет много конкуренции, способствующей интеллекту и эволюции. AlphaGo играет против себя, и именно так он учится становиться действительно хорошим в Го. В LLM нет эквивалента самоигры. Почему LLM, например, не может создать кучу задач, которые другой LLM учится решать? Тогда LLM всегда пытается решать все более сложные задачи.”
Я спросил Карпати, почему LLM все еще не могут накапливать культуру так, как это делают люди.
> “Глупые модели удивительно напоминают ученика детского сада. [Самые умные модели все еще ощущаются как] ученики начальной школы. Почему-то мы все еще не выпустились достаточно, чтобы [эти модели] могли взять на себя управление. Мой Claude Code или Codex, они все еще ощущаются как ученики начальной школы. Я знаю, что они могут проходить экзамены на степень PhD, но они все еще когнитивно ощущаются как детский сад.”
> “Я не думаю, что они могут создавать культуру, потому что они все еще дети. Они дети-саванты. У них идеальная память. Они могут убедительно создавать всякую ерунду, которая выглядит действительно хорошо. Но я все еще думаю, что они не понимают, что делают. У них нет когнитивных способностей по всем этим маленьким чекбоксам, которые нам все еще нужно собрать.”
320,87K
.@Stanford курсы высокого качества, но политики определенно устарели. Я слышу о повсеместном откровенном жульничестве, когда студенты вводят вопросы напрямую в ChatGPT во время промежуточных экзаменов, но профессорам не разрешается контролировать экзамены из-за кодекса чести.
Профессора хотят изменить политику, но университетская бюрократия должна пройти многоступенчатый процесс в течение нескольких лет, прежде чем это может измениться.

Zara Zhang14 окт. 2025 г.
Студенты Гарварда и Стэнфорда говорят мне, что их профессора не понимают ИИ, а курсы устарели.
Если элитные школы не могут угнаться за временем, гонка за дипломами закончена. Самообразование теперь единственный путь.
214,15K
Топ
Рейтинг
Избранное
