نموذج مكافأة جديد يسمى SARM — > نمذجة المكافأة الواعي للمرحلة لمعالجة الروبوتات ذات الأفق الطويل موجود الآن في LeRobot! 🤗 التلاعب بعيد الأفق وغني بالتلامس (فكر في طي قميص) فوضوي. تشمل العروض بشكل طبيعي ترددات وتصحيحات وجودة متغيرة. يعامل استنساخ السلوك الكلاسيكي (BC) كل إطار بشكل متساو، بينما يتبع SARM نهجا أكثر ذكاء. 🔎 كيف يعمل ذلك؟ تستخدم SARM نموذج مكافآت قائم على الفيديو للتنبؤ بما يلي: • مرحلة المهمة الحالية • تقدم دقيق خلال تلك المرحلة (0 → 1) يتيح ذلك استنساخ السلوك المتوافق مع المكافأة (RA-BC) من خلال إعادة وزن البيانات بناء على تحسين التقدم، مما يسمح للنموذج بالتمييز بين المسارات التي تحقق تقدما وتلك التي تتعثر. الصورة اليسرى: النشر الناجح، التقدم المكتسب بسلاسة مع زيادة 0 → 1 الصورة اليمنى: الطرح غير الناجح
👉 متوفر الآن على موقع مشروع ليروبوت: الورق ✨ الفضل يعود للمؤلفين الأصليين لهذا العمل الرائع: تشيانتشونغ تشن @QianzhongChen، جاستن يو، ماك شواجر، بيتر أبيل، ييدي شينتو، فيليب وو
‏‎907‏