トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
最近、私はこれをよく耳にします:「私たちはロボットを1つの物体で訓練し、それが新しい物体に一般化しました。これらの新しいVLAモデルはクレイジーです!」
VLA モデルの「A」(アクション)部分で実際に何が起こっているかについて話しましょう。
ビジョンと言語のコンポーネントは?彼らは信じられないほどです。インターネット規模のデータで事前トレーニングされた彼らは、オブジェクト、空間関係、タスクの指示をこれまで以上に理解しています。
しかし、アクションコンポーネントは?それは、特定のロボットのデモンストレーションでゼロから学んだものです。
現実は次のとおりです: VLA モデルは、ドライバーがどのように見えるか、そして「ネジを締める」とはどういう意味かをインターネット規模で理解しています。しかし、「下向きの圧力をかけながら手首を回転させる」ための実際の運動パターンは?これは、500台のロボットデモから得られます。
これが「一般化」にとって何を意味するのか:
- 視覚の一般化:新しい物体を即座に認識します(事前トレーニングのおかげで)
•言語の一般化:新しいタスクの指示を理解する(事前トレーニングのおかげで)
• アクションの一般化: ロボットのトレーニング中に見られる運動パターンに限定されます
同じロボットに「ボトルのキャップを緩める」ように依頼すると、次の理由で失敗します。
• 視覚: ボトルとキャップを認識します。
• 言語: 「ネジを外す」を理解します
• アクション: 「引っ張りながらひねる」モーターパターンを学んだことがありません
VLAモデルに関する厳しい真実:
「VL」は、信じられないほどのゼロショット理解を提供します。「A」には、タスク固有のデモンストレーションが必要です。
私たちは認識と推論の問題を解決しました。モーターの一般化の問題は解決されていません。
33.66K
トップ
ランキング
お気に入り