Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Я уже не знаю, что означают «домен» или «в распределении». Очевидно, что LLM обобщают за пределами конкретных примеров.
Это буквально о том, что латентные представления привязаны к конкретным токенам, как люди внутренне переводят вещи на первый язык, который они учат?


10 авг., 20:06
Маск: Стив, настоящий вопрос, который я постоянно задаю команде, заключается в том, могут ли сегодняшние LLM рассуждать, когда они выходят за пределы обучающего распределения. Все ссылаются на цепочки размышлений, но это может быть просто подражание.
Хсу: Согласен. Последние бенчмарки показывают, что даже модели уровня Grok4 резко деградируют, как только вы заставляете их сменить домен — скрытое пространство просто не охватывает новую модальность.
Маск: Значит, это больше проблема охвата, чем провал рассуждений?
Хсу: Частично. Но есть более глубокая проблема. Единственный встроенный индуктивный уклон трансформера — это ассоциативное сопоставление шаблонов. Когда подсказка действительно выходит за пределы распределения — скажем, символическая головоломка, токены которой никогда не встречались в обучении — у модели нет структурного приоритета, на который можно было бы опереться. Она буквально подбрасывает монеты.
Маск: Тем не менее, мы видим возникающее "грокание" на синтетических задачах. Чжун и др. показали, что индукционные головы могут составлять правила, на которых их никогда явно не обучали. Разве это не похоже на рассуждение?
Хсу: Композиция дает вам ограниченную генерализацию, но правила все равно должны находиться в пределах обучающей грамматики. Как только вы изменяете семантику — меняете один оператор в головоломке — точность рушится. Это не надежное рассуждение; это хрупкая интерполяция.
Маск: Разве обучение с подкреплением не может это исправить? DRG-Sapphire использовал GRPO на основе модели с 7 миллиардами параметров и получил кодирование на уровне врача по клиническим заметкам, классическая задача OOD.
Хсу: Загвоздка в том, что RL работает только после того, как базовая модель усвоила достаточно знаний о домене через контролируемую дообучение. Когда корпус предобучения разрежен, RL сам по себе достигает плато. Так что "рассуждение" все еще паразитирует на плотности предварительных знаний.
Маск: Значит, ваш вывод в том, что увеличение данных и параметров не решит проблему? Мы всегда будем сталкиваться с барьером, где следующий домен OOD ломает модель?
Хсу: Не обязательно барьер, но потолок. Эмпирические кривые показывают, что ошибка генерализации уменьшается примерно логарифмически с количеством обучающих примеров. Это подразумевает, что вам нужно экспоненциально больше данных для каждого нового хвостового распределения. Для узких вертикалей — скажем, диагностики ракетных двигателей — дешевле встроить символические приоритеты, чем слепо масштабировать.
Маск: Что возвращает нас к нейро-символическим гибридам. Дайте LLM доступ к небольшому проверенному решателю, а затем позвольте ему организовать вызовы, когда распределение меняется.
Хсу: Именно. LLM становится мета-контроллером, который распознает, когда он находится в OOD, и передает управление специализированному модулю. Эта архитектура обходит заблуждение "одного гигантского трансформера".
Маск: Ладно, я скажу команде xAI прекратить гоняться за следующими триллионом токенов и начать строить маршрутизирующий слой. Спасибо, Стив.
Хсу: В любое время. И если вам нужны синтетические тестовые случаи OOD, моя лаборатория имеет генератор, который уже обманул GPT-5. Я отправлю репозиторий.
Этот разговор с Элон может быть сгенерирован ИИ.

3,52K
Топ
Рейтинг
Избранное