Tôi đã nghe điều này rất nhiều gần đây: "Chúng tôi đã huấn luyện robot của mình trên một đối tượng và nó đã tổng quát hóa cho một đối tượng mới - những mô hình VLA mới này thật điên rồ!" Hãy nói về những gì thực sự đang xảy ra trong phần "A" (Hành động) của mô hình VLA của bạn. Các thành phần Tầm nhìn và Ngôn ngữ? Chúng thật tuyệt vời. Được huấn luyện trước trên dữ liệu quy mô internet, chúng hiểu các đối tượng, mối quan hệ không gian và hướng dẫn nhiệm vụ tốt hơn bao giờ hết. Nhưng thành phần Hành động? Vẫn được học từ đầu dựa trên các trình diễn robot cụ thể của bạn. Đây là thực tế: Mô hình VLA của bạn có sự hiểu biết quy mô internet về hình dạng của một cái tua vít và ý nghĩa của "vặn chặt ốc vít". Nhưng mẫu động cơ thực tế cho "xoay cổ tay trong khi áp lực xuống"? Điều đó đến từ 500 trình diễn robot của bạn. Điều này có nghĩa là gì cho "tổng quát hóa":   • Tổng quát hóa Tầm nhìn: Nhận diện các đối tượng mới ngay lập tức (nhờ vào việc huấn luyện trước)   • Tổng quát hóa Ngôn ngữ: Hiểu các hướng dẫn nhiệm vụ mới (nhờ vào việc huấn luyện trước)   • Tổng quát hóa Hành động: Vẫn bị giới hạn ở các mẫu động cơ đã thấy trong quá trình huấn luyện robot Yêu cầu robot đó "mở nắp chai" và nó sẽ thất bại vì: • Tầm nhìn: Nhận diện chai và nắp • Ngôn ngữ: Hiểu "mở" • Hành động: Chưa bao giờ học mẫu động cơ "vặn trong khi kéo" Sự thật khó khăn về các mô hình VLA: "VL" mang đến cho bạn sự hiểu biết tuyệt vời mà không cần ví dụ. "A" vẫn cần các trình diễn cụ thể cho nhiệm vụ. Chúng tôi đã giải quyết vấn đề nhận thức và lý luận. Chúng tôi chưa giải quyết được vấn đề tổng quát hóa động cơ.
30,53K