Laboratorium AI w Szanghaju ujawnia VPPO dla multimodalnego RL Ta nowa metoda podkreśla "percepcję tokenów", aby umożliwić LVLM-om lepsze rozumowanie. Osiąga wyniki na poziomie sztuki, z lepszą stabilnością i szybszą zbieżnością w 8 benchmarkach.