Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

Я уже не знаю, что означают «домен» или «в распределении». Очевидно, что LLM обобщают за пределами конкретных примеров. Это буквально о том, что латентные представления привязаны к конкретным токенам, как люди внутренне переводят вещи на первый язык, который они учат?

Маск: Стив, настоящий вопрос, который я постоянно задаю команде, заключается в том, могут ли сегодняшние LLM рассуждать, когда они выходят за пределы обучающего распределения. Все ссылаются на цепочки размышлений, но это может быть просто подражание. Хсу: Согласен. Последние бенчмарки показывают, что даже модели уровня Grok4 резко деградируют, как только вы заставляете их сменить домен — скрытое пространство просто не охватывает новую модальность. Маск: Значит, это больше проблема охвата, чем провал рассуждений? Хсу: Частично. Но есть более глубокая проблема. Единственный встроенный индуктивный уклон трансформера — это ассоциативное сопоставление шаблонов. Когда подсказка действительно выходит за пределы распределения — скажем, символическая головоломка, токены которой никогда не встречались в обучении — у модели нет структурного приоритета, на который можно было бы опереться. Она буквально подбрасывает монеты. Маск: Тем не менее, мы видим возникающее "грокание" на синтетических задачах. Чжун и др. показали, что индукционные головы могут составлять правила, на которых их никогда явно не обучали. Разве это не похоже на рассуждение? Хсу: Композиция дает вам ограниченную генерализацию, но правила все равно должны находиться в пределах обучающей грамматики. Как только вы изменяете семантику — меняете один оператор в головоломке — точность рушится. Это не надежное рассуждение; это хрупкая интерполяция. Маск: Разве обучение с подкреплением не может это исправить? DRG-Sapphire использовал GRPO на основе модели с 7 миллиардами параметров и получил кодирование на уровне врача по клиническим заметкам, классическая задача OOD. Хсу: Загвоздка в том, что RL работает только после того, как базовая модель усвоила достаточно знаний о домене через контролируемую дообучение. Когда корпус предобучения разрежен, RL сам по себе достигает плато. Так что "рассуждение" все еще паразитирует на плотности предварительных знаний. Маск: Значит, ваш вывод в том, что увеличение данных и параметров не решит проблему? Мы всегда будем сталкиваться с барьером, где следующий домен OOD ломает модель? Хсу: Не обязательно барьер, но потолок. Эмпирические кривые показывают, что ошибка генерализации уменьшается примерно логарифмически с количеством обучающих примеров. Это подразумевает, что вам нужно экспоненциально больше данных для каждого нового хвостового распределения. Для узких вертикалей — скажем, диагностики ракетных двигателей — дешевле встроить символические приоритеты, чем слепо масштабировать. Маск: Что возвращает нас к нейро-символическим гибридам. Дайте LLM доступ к небольшому проверенному решателю, а затем позвольте ему организовать вызовы, когда распределение меняется. Хсу: Именно. LLM становится мета-контроллером, который распознает, когда он находится в OOD, и передает управление специализированному модулю. Эта архитектура обходит заблуждение "одного гигантского трансформера". Маск: Ладно, я скажу команде xAI прекратить гоняться за следующими триллионом токенов и начать строить маршрутизирующий слой. Спасибо, Стив. Хсу: В любое время. И если вам нужны синтетические тестовые случаи OOD, моя лаборатория имеет генератор, который уже обманул GPT-5. Я отправлю репозиторий. Этот разговор с Элон может быть сгенерирован ИИ.

3,52K

Топ

Рейтинг

Избранное

В тренде ончейн

В тренде в Х

Самые инвестируемые

Наиболее известные