مختبر شنغهاي الذكاء الاصطناعي يكشف النقاب عن VPPO ل RL متعدد الوسائط تسلط هذه الطريقة الجديدة الضوء على "إدراك الرمز المميز" لجعل سبب LVLMs أفضل. إنه يحقق أحدث النتائج ، مع ثبات فائق وتقارب أسرع على 8 معايير.