نشارك اليوم أول عمل بحثي لنا لاستكشاف الانتشار لنماذج اللغة: نماذج لغة رؤية الانحدار الذاتي إلى الانتشار نقوم بتطوير نموذج لغة رؤية الانتشار المتطور ، الانحدار الذاتي إلى الانتشار (A2D) ، من خلال تكييف نموذج لغة الرؤية الانحدار الذاتي الحالي لفك تشفير الانتشار المتوازي. يسهل نهجنا إطلاق العنان لمقايضة جودة السرعة لنماذج لغة الانتشار دون تدريب من البداية، من خلال الاستفادة من نماذج الانحدار الذاتي الحالية المدربة مسبقا.
تتسبب نماذج لغة الرؤية القياسية (VLMs) في الصور ومقاطع الفيديو من خلال اللغة ، مما يؤدي إلى تشغيل مجموعة متنوعة من التطبيقات من التسميات التوضيحية للصور إلى الإجابة المرئية على الأسئلة. تقوم VLMs ذاتية الانحدار بإنشاء رموز مميزة بالتتابع، مما يمنع التوازي ويحد من إنتاجية الاستدلال. تبرز أجهزة فك تشفير الانتشار كبديل واعد لفك التشفير الانحدار الذاتي في VLMs من خلال تمكين إنشاء الرمز المميز المتوازي لاستدلال أسرع.
لقد قمنا بتدريب VLM منتشر حديث ، A2D-VL 7B للتوليد المتوازي من خلال ضبط VLM الانحدار الذاتي الحالي في مهمة نمذجة لغة الانتشار ، باستخدام إطار عمل الانتشار المقنع الذي "يضوض" الرموز المميزة عن طريق إخفائها و "إزالة الضوضاء" من خلال التنبؤ بالرموز الأصلية. نقوم بتطوير تقنيات تكيف جديدة تزيد تدريجيا من صعوبة المهمة أثناء الضبط الدقيق للانتقال بسلاسة من فك التشفير المتسلسل إلى المتوازي مع الحفاظ على قدرات النموذج الأساسي ، عن طريق تلدين كل من حجم الكتلة ومستوى الضوضاء.
يتفوق A2D-VL على VLMs السابقة في الإجابة المرئية على الأسئلة بينما يتطلب حوسبة تدريبية أقل بكثير. تعد تقنيات التكيف الجديدة لدينا ضرورية للاحتفاظ بقدرات النموذج ، مما يتيح أخيرا تحويل أحدث VLMs ذاتية الانحدار إلى الانتشار مع الحد الأدنى من التأثير على الجودة.
هذا العمل هو خطوة نحو هدفنا المتمثل في توحيد الفهم متعدد الوسائط والتوليد من أجل بناء أجهزة محاكاة متعددة الوسائط للعالم. التعرف على المزيد:
‏‎93.92‏K