Saya sering mendengar ini baru-baru ini: "Kami melatih robot kami pada satu objek dan itu digeneralisasi menjadi objek baru - model VLA baru ini gila!" Mari kita bicara tentang apa yang sebenarnya terjadi di bagian "A" (Action) dari model VLA Anda. Komponen Visi dan Bahasa? Mereka luar biasa. Dilatih sebelumnya pada data skala internet, mereka memahami objek, hubungan spasial, dan instruksi tugas lebih baik dari sebelumnya. Tapi komponen Aksi? Itu masih dipelajari dari awal pada demonstrasi robot spesifik Anda. Inilah kenyataannya: Model VLA Anda memiliki pemahaman skala internet tentang seperti apa obeng dan apa artinya "kencangkan sekrup". Tapi pola motor sebenarnya untuk "memutar pergelangan tangan sambil menerapkan tekanan ke bawah"? Itu berasal dari 500 demo robot Anda. Apa artinya ini untuk "generalisasi":   • Generalisasi penglihatan: Mengenali objek baru secara instan (berkat pra-pelatihan)   • Generalisasi bahasa: Memahami instruksi tugas baru (berkat pra-pelatihan)   • Generalisasi tindakan: Masih terbatas pada pola motorik yang terlihat selama pelatihan robot Mintalah robot yang sama untuk "membuka tutup botol" dan gagal karena: • Penglihatan: Mengenali botol dan tutup • Bahasa: Memahami "buka tutup" • Tindakan: Tidak pernah mempelajari pola motor "putar sambil menarik" Kebenaran keras tentang model VLA: "VL" memberi Anda pemahaman zero-shot yang luar biasa. "A" masih membutuhkan demonstrasi khusus tugas. Kami telah memecahkan masalah persepsi dan penalaran. Kami belum memecahkan masalah generalisasi motor.
30,54K