El Laboratorio de IA de Shanghái presenta VPPO para RL multimodal Este nuevo método destaca la "percepción de tokens" para mejorar el razonamiento de los LVLMs. Logra resultados de vanguardia, con una estabilidad superior y una convergencia más rápida en 8 benchmarks.