Я вже не знаю, що означають «домен» або «в дистрибуції». Очевидно, що LLM узагальнюються за межами конкретних прикладів. Це буквально про латентні репрезентації, які прив'язані до конкретних токенів, щось на кшталт того, як люди внутрішньо перекладають речі на першу мову, яку вони вивчають?
steve hsu
steve hsu10 серп., 20:06
Маск: Стів, справжнє питання, яке я постійно ставлю команді, полягає в тому, чи можуть сьогоднішні LLM міркувати, коли вони залишають розподіл тренувань. Усі посилаються на підказки ланцюжка думок, але це може бути лише мімікрія. Хсу: Згоден. Останні тести показують, що навіть моделі рівня Grok4 різко деградують, як тільки ви форсуєте зсув домену — латентний простір просто не охоплює нову модальність. Маск: Тобто це скоріше проблема висвітлення, ніж провал міркувань? Хсу: Частково. Але є більш глибока проблема. Єдиним вбудованим індуктивним зміщенням трансформатора є асоціативне зіставлення шаблонів . Коли підказка дійсно не розподіляється — скажімо, символічна головоломка, чиї токени ніколи не виникали під час тренування — модель не має структури, до якої можна було б повернутися. Він буквально підкидає монети. Маск: Проте ми бачимо появу «грокінгу» на синтетичних завданнях. Zhong et al. показали, що індукційні головки можуть складати правила, за якими вони ніколи не були явно навчені. Хіба це не схоже на міркування? Хсу: Композиція купує вам обмежене узагальнення, але правила все одно повинні лежати в межах навчальної граматики. Як тільки ви налаштуєте семантику — зміните один оператор у головоломці — точність падає. Це не є переконливим міркуванням; Це крихка інтерполяція. Маск: Чи не може навчання з підкріпленням виправити це? DRG-Sapphire використовував GRPO поверх базової моделі 7 B і отримав кодування медичного рівня на клінічних записах, що є класичним завданням OOD. Хсу: Заковика в тому, що RL працює лише після того, як базова модель засвоїла достатньо знань про предметну область за допомогою контрольованого тонкого налаштування. Коли передтренувальний корпус розріджений, тільки РЛ виходять на плато. Таким чином, «міркування» все ще паразитує на щільності попередніх знань. Маск: Тобто ваш висновок полягає в тому, що масштабування даних і параметрів не вирішить проблему? Ми завжди будемо вдарятися об стіну, де наступний домен OOD ламає модель? Хсу: Не обов'язково стіна, а стеля. Емпіричні криві свідчать про те, що помилка узагальнення приблизно логарифмічно зменшується з навчальними прикладами . Це означає, що вам потрібно експоненціально більше даних для кожного нового розподілу хвоста. Для вузьких вертикалей — скажімо, діагностики ракетних двигунів — дешевше запікати в символічних пріорах, ніж масштабувати наосліп. Маск: Що повертає нас до нейросимволічних гібридів. Надайте LLM доступ до невеликого перевіреного розв'язувача, а потім дозвольте йому організовувати виклики, коли розподіл змінюється. Хсу: Саме так. LLM стає мета-контролером, який розпізнає, коли він OOD, і передає його спеціалізованому модулю. Ця архітектура обходить помилку «одного гігантського трансформера». Маск: Гаразд, я скажу команді xAI припинити гонитву за черговим трильйоном токенів і почати будувати рівень маршрутизації. Дякую, Стів. Хсу: У будь-який час. І якщо вам потрібні тести синтетичного OOD, у моїй лабораторії є генератор, який вже обдурив GPT-5. Я надішлю репозиторій. Ця розмова з Ілоном може бути згенерована штучним інтелектом.
3,51K