Останнім часом я часто чув таке: «Ми тренували нашого робота на одному об'єкті, і він перетворився на новий об'єкт – ці нові моделі VLA божевільні!» Давайте поговоримо про те, що насправді відбувається в цій частині «А» (дія) вашої моделі VLA. Візія та мовна складові? Вони неймовірні. Попередньо навчені на даних масштабу Інтернету, вони розуміють об'єкти, просторові відносини та інструкції щодо завдань краще, ніж будь-коли. А що стосується діяльної складової? Це все ще вивчено з нуля на ваших конкретних демонстраціях роботів. Реальність така: ваша модель VLA має уявлення про те, як виглядає викрутка і що означає «закрутити гвинт». Але фактична рухова схема для «обертання зап'ястя з одночасним тиском вниз»? Це випливає з ваших 500 демонстрацій роботів. Що це означає для «узагальнення»:   • Узагальнення зору: миттєво впізнає нові об'єкти (завдяки попередньому навчанню)   • Узагальнення мови: Розуміє інструкції з нових завдань (завдяки попередньому навчанню)   • Узагальнення дій: все ще обмежується руховими патернами, які спостерігаються під час навчання роботів Попросіть того ж робота «відкрутити кришку від пляшки», і він не вийде, тому що: • Vision: розпізнає пляшку та кришку • Мова: Розуміє "відкрутити" • Дія: Так і не вивчив схему мотора «крутити під час тяги» Гірка правда про моделі VLA: «VL» дає неймовірне розуміння з нульовим пострілом. «А», як і раніше, вимагає демонстрації з урахуванням конкретного завдання. Ми розв'язали проблему сприйняття та міркування. Ми не розв'язали проблему узагальнення моторів.
33,66K