المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
#PaperADay 3 (آمل أن تكون الروابط المدمجة أقل تدويرا بما يكفي حتى لا ينزعج الكثير من الناس من هذا المحتوى)
@ylecun كان موضوعيا مؤخرا، لذا اليوم راجعت ما يلي:
التعلم الذاتي الإشراف من الصور مع بنية تنبؤية مدمج مشترك
أتفق بشكل عام مع فكرة أن التنبؤات المهمة هي التمثيلات الداخلية وليس البكسلات، لذا قد تكون النماذج التوليدية غير فعالة إلى حد ما، أو على الأقل غير فعالة بلا داع للعديد من المهام.
ومع ذلك، أميل إلى الاعتقاد بأن التنبؤ الداخلي يجب أن يحدث على مستوى أكثر تفصيلا من معالجة الصورة الكاملة، أو على المستوى الصغير أو حتى العصبي، ومع وجود مكون زمني أكثر من التمويه المحلي.
التدريب الذاتي المراقب يعمل على مجموعة بيانات كبيرة دون معرفة بما سيطلب من النموذج لاحقا، فقط بناء المعرفة من البيانات. بعد ذلك، يمكنك تدريب مصنف خطي بسيط (مسبار خطي) على المخرجات والحصول على أداء جيد جدا. أفضل المجسات الخطية على النماذج المجمدة ذات الإشراف الذاتي ليست قوية مثل المصنفات المدربة من البداية إلى النهاية، لكن نفس SSM يمكن أن يكون قويا للعديد من المهام المختلفة في نفس الوقت.
تشير الورقة إلى أنه على عكس JEPA، فإن طرق التدريب القائمة على الثبات التي تأخذ نفس الصورة وتعزيزها بطريقتين مختلفتين مع الحفاظ على التشابه التمثيلي تحقق أدائها على حساب مجموعة تحيزات الصور الباحثة، والتي لا تنتقل إلى وسائل أخرى مثل الصوت أو النص. ألاحظ أن JEPA حساس جدا للتغطية الدقيقة التي يتم (الجدول 6)، والتي لا تبدو مختلفة كثيرا.
المشفر المستهدف مشابه ظاهريا للصياغة الحديثة للنموذج الهدف في شبكات التعلم المعزز DQN مع EMA للأوزان بدلا من نسخة عرضية، ولكن رغم أنه كان مساعدا للاستقرار للتعلم المعزز (وليس ضروريا دائما)، إلا أن له غرض أساسي هنا وهو منع النموذج من انهيار التمثيلات إلى تمثيلات تافهة للتنبؤ. هذا، إلى جانب كون LayerNorm عنصرا أساسيا أيضا، لم يذكر في الورقة، واضطررت للبحث عن إشارات له في مكان آخر.
من الغريب أنهم يطبقون قصا عشوائيا بنسبة 0.85-1.0 على السياق، لكنهم يزيلون فقط الكتل من اليمين والأسفل. كنت أتوقع أن أرى استئصالا لذلك المحصول.
زيادة دقة الصورة طريقة غريبة بعض الشيء لتكبير النموذج. ربما المشكلة ليست في الدقة فعليا، بل في إجمالي عدد الرقسات.
هناك مجموعة كبيرة من الأعمال حول الإشراف الذاتي التي أعرفها بشكل غامض فقط، لذا ربما أفتقد بعض الجوانب الرئيسية المميزة ل JEPA. ما زلت أتعامل مع السؤال الأساسي حول ما تتعلمه السياقات بالضبط، وكيف توجهها بنية النماذج والتدريب بعيدا عن الانهيار.
الأفضل
المُتصدِّرة
التطبيقات المفضلة
