Model hadiah baru yang disebut SARM —Pemodelan Hadiah Sadar Tahap > untuk manipulasi robot cakrawala panjang sekarang ada di LeRobot! 🤗 Manipulasi yang panjang dan kaya kontak (pikirkan melipat T-shirt) berantakan. Demonstrasi secara alami mencakup keraguan, koreksi, dan kualitas variabel. Kloning Perilaku Klasik (BC) memperlakukan setiap bingkai secara merata, SARM mengambil pendekatan yang lebih cerdas. 🔎 Bagaimana cara kerjanya? SARM menggunakan model reward berbasis video untuk memprediksi: • tahap tugas saat ini • kemajuan terperinci dalam tahap itu (0 → 1) Hal ini memungkinkan Kloning Perilaku Sejajar Hadiah (RA-BC) dengan menimbang ulang data berdasarkan peningkatan kemajuan, memungkinkan model untuk membedakan lintasan yang membuat kemajuan dari lintasan yang terhenti. Gambar kiri: peluncuran berhasil, kemajuan yang dipelajari dengan lancar meningkat 0 → 1 Gambar kanan: peluncuran yang tidak berhasil
👉 Tersedia sekarang di situs web LeRobot: Paper Project ✨ Kredit untuk penulis asli untuk karya luar biasa ini: Qianzhong Chen @QianzhongChen, Justin Yu, Mac Schwager, Pieter Abbeel, Yide Shentu, Philipp Wu
859