Shanghai AI Lab revela VPPO para RL multimodal Este novo método destaca a "percepção simbólica" para fazer com que os LVLMs raciocinem melhor. Ele alcança resultados de última geração, com estabilidade superior e convergência mais rápida em 8 benchmarks.