O Laboratório de IA de Xangai apresenta o VPPO para RL multimodal Este novo método destaca a "percepção de token" para melhorar o raciocínio dos LVLMs. Ele alcança resultados de ponta, com estabilidade superior e convergência mais rápida em 8 benchmarks.