Das Shanghai AI Lab präsentiert VPPO für multimodales RL Diese neue Methode hebt die "Token-Wahrnehmung" hervor, um LVLMs besser reasoning zu lassen. Sie erzielt erstklassige Ergebnisse mit überlegener Stabilität und schnellerer Konvergenz bei 8 Benchmarks.