المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
لقد سمعت هذا كثيرا مؤخرا: "لقد قمنا بتدريب الروبوت الخاص بنا على كائن واحد وتم تعميمه على كائن جديد - نماذج VLA الجديدة هذه مجنونة!"
دعنا نتحدث عما يحدث بالفعل في هذا الجزء "A" (Action) من نموذج VLA الخاص بك.
مكونات الرؤية واللغة؟ إنهم لا يصدقون. تم تدريبهم مسبقا على البيانات على نطاق الإنترنت ، فهم يفهمون الأشياء والعلاقات المكانية وتعليمات المهام بشكل أفضل من أي وقت مضى.
لكن مكون العمل؟ لا يزال هذا يتم تعلمه من الصفر في عروض الروبوت الخاصة بك.
إليكم الحقيقة: يتمتع طراز VLA الخاص بك بفهم على نطاق الإنترنت لما يبدو عليه مفك البراغي وما يعنيه "شد المسمار". لكن نمط المحرك الفعلي ل "تدوير المعصم أثناء الضغط الهبوطي"؟ يأتي ذلك من 500 عرض توضيحي للروبوت.
ماذا يعني هذا بالنسبة ل "التعميم":
• تعميم الرؤية: يتعرف على الأشياء الجديدة على الفور (بفضل التدريب المسبق)
• تعميم اللغة: يفهم تعليمات المهام الجديدة (بفضل التدريب المسبق)
• تعميم العمل: لا يزال يقتصر على الأنماط الحركية التي شوهدت أثناء تدريب الروبوت
اطلب من نفس الروبوت "فك غطاء الزجاجة" ويفشل للأسباب التالية:
• الرؤية: يتعرف على الزجاجة والغطاء
• اللغة: يفهم "فك"
• العمل: لم تتعلم أبدا نمط المحرك "الالتواء أثناء السحب"
الحقيقة الصعبة حول نماذج VLA:
يمنحك "VL" فهما لا يصدق لعدم اللقطة. لا يزال الحرف "A" يتطلب عروضا توضيحية خاصة بالمهام.
لقد قمنا بحل مشكلة الإدراك والتفكير. لم نقم بحل مشكلة التعميم الحركي.
30.54K
الأفضل
المُتصدِّرة
التطبيقات المفضلة