Shanghai AI Lab представила VPPO для мультимодальних RL Цей новий метод висвітлює «сприйняття токенів», щоб змусити LVLM краще розуміти. Він досягає найсучасніших результатів із чудовою стабільністю та швидшою конвергенцією за 8 тестами.