Shanghai AI Lab dezvăluie VPPO pentru RL multimodal Această nouă metodă pune în evidență "percepția tokenului" pentru a face raționamentul LVLM-urilor mai bun. Obține rezultate de ultimă generație, cu stabilitate superioară și convergență mai rapidă pe 8 benchmark-uri.