Я слышал это много раз в последнее время: "Мы обучили нашего робота на одном объекте, и он обобщил на новый объект - эти новые модели VLA просто безумны!" Давайте поговорим о том, что на самом деле происходит в этой части "A" (Действие) вашей модели VLA. Компоненты Видения и Языка? Они невероятны. Предобученные на данных интернет-уровня, они понимают объекты, пространственные отношения и инструкции по задачам лучше, чем когда-либо. Но компонент Действия? Он все еще обучается с нуля на ваших конкретных демонстрациях робота. Вот реальность: ваша модель VLA имеет понимание интернет-уровня о том, как выглядит отвертка и что значит "затянуть винт". Но фактический моторный паттерн для "вращения запястья с приложением давления вниз"? Это приходит из ваших 500 демонстраций робота. Что это значит для "обобщения":   • Обобщение Видения: Мгновенно распознает новые объекты (благодаря предобучению)   • Обобщение Языка: Понимает новые инструкции по задачам (благодаря предобучению)   • Обобщение Действия: Все еще ограничено моторными паттернами, увиденными во время обучения робота Попросите того же робота "открутить крышку бутылки", и он потерпит неудачу, потому что: • Видение: Распознает бутылку и крышку • Язык: Понимает "открутить" • Действие: Никогда не изучал моторный паттерн "повернуть, вытягивая" Жесткая правда о моделях VLA: "VL" дает вам невероятное понимание без примеров. "A" все еще требует демонстраций, специфичных для задачи. Мы решили проблему восприятия и рассуждения. Мы не решили проблему моторного обобщения.
30,53K