Phòng thí nghiệm AI Thượng Hải công bố VPPO cho RL đa phương thức Phương pháp mới này nổi bật với "nhận thức token" để giúp LVLMs suy luận tốt hơn. Nó đạt được kết quả tốt nhất trong ngành, với độ ổn định vượt trội và hội tụ nhanh hơn trên 8 tiêu chuẩn.