最近、私はこれをよく耳にします:「私たちはロボットを1つの物体で訓練し、それが新しい物体に一般化しました。これらの新しいVLAモデルはクレイジーです!」 VLA モデルの「A」(アクション)部分で実際に何が起こっているかについて話しましょう。 ビジョンと言語のコンポーネントは?彼らは信じられないほどです。インターネット規模のデータで事前トレーニングされた彼らは、オブジェクト、空間関係、タスクの指示をこれまで以上に理解しています。 しかし、アクションコンポーネントは?それは、特定のロボットのデモンストレーションでゼロから学んだものです。 現実は次のとおりです: VLA モデルは、ドライバーがどのように見えるか、そして「ネジを締める」とはどういう意味かをインターネット規模で理解しています。しかし、「下向きの圧力をかけながら手首を回転させる」ための実際の運動パターンは?これは、500台のロボットデモから得られます。 これが「一般化」にとって何を意味するのか:   - 視覚の一般化:新しい物体を即座に認識します(事前トレーニングのおかげで)   •言語の一般化:新しいタスクの指示を理解する(事前トレーニングのおかげで)   • アクションの一般化: ロボットのトレーニング中に見られる運動パターンに限定されます 同じロボットに「ボトルのキャップを緩める」ように依頼すると、次の理由で失敗します。 • 視覚: ボトルとキャップを認識します。 • 言語: 「ネジを外す」を理解します • アクション: 「引っ張りながらひねる」モーターパターンを学んだことがありません VLAモデルに関する厳しい真実: 「VL」は、信じられないほどのゼロショット理解を提供します。「A」には、タスク固有のデモンストレーションが必要です。 私たちは認識と推論の問題を解決しました。モーターの一般化の問題は解決されていません。
33.66K