Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Я слышал это много раз в последнее время: "Мы обучили нашего робота на одном объекте, и он обобщил на новый объект - эти новые модели VLA просто безумны!"
Давайте поговорим о том, что на самом деле происходит в этой части "A" (Действие) вашей модели VLA.
Компоненты Видения и Языка? Они невероятны. Предобученные на данных интернет-уровня, они понимают объекты, пространственные отношения и инструкции по задачам лучше, чем когда-либо.
Но компонент Действия? Он все еще обучается с нуля на ваших конкретных демонстрациях робота.
Вот реальность: ваша модель VLA имеет понимание интернет-уровня о том, как выглядит отвертка и что значит "затянуть винт". Но фактический моторный паттерн для "вращения запястья с приложением давления вниз"? Это приходит из ваших 500 демонстраций робота.
Что это значит для "обобщения":
• Обобщение Видения: Мгновенно распознает новые объекты (благодаря предобучению)
• Обобщение Языка: Понимает новые инструкции по задачам (благодаря предобучению)
• Обобщение Действия: Все еще ограничено моторными паттернами, увиденными во время обучения робота
Попросите того же робота "открутить крышку бутылки", и он потерпит неудачу, потому что:
• Видение: Распознает бутылку и крышку
• Язык: Понимает "открутить"
• Действие: Никогда не изучал моторный паттерн "повернуть, вытягивая"
Жесткая правда о моделях VLA:
"VL" дает вам невероятное понимание без примеров. "A" все еще требует демонстраций, специфичных для задачи.
Мы решили проблему восприятия и рассуждения. Мы не решили проблему моторного обобщения.
30,53K
Топ
Рейтинг
Избранное