Shanghai AI LabがマルチモーダルRL用のVPPOを発表 この新しい方法は、LVLM の推論を改善するために「トークン認識」にスポットライトを当てます。8つのベンチマークで優れた安定性とより速い収束により、最先端の結果を達成します。