Prostorové vynucení zlepšuje 3D vnímání robota
Tato strategie plug-and-play slaďuje modely VLA s 3D základními modely, aby získala prostorové povědomí. Dosáhněte SOTA v robotických úlohách s 3,8x rychlejším školením a o 50 % vyšší úspěšností v reálném světě, bez explicitních 3D senzorů!
Shanghai AI Lab představuje VPPO pro multimodální RL
Tato nová metoda se zaměřuje na "vnímání tokenů", aby LVLM lépe uvažovali. Dosahuje nejmodernějších výsledků s vynikající stabilitou a rychlejší konvergencí na 8 benchmarkech.
Když se myšlenky setkávají s fakty: Novinka od Amazonu a KAIST
LCLM mohou zpracovávat rozsáhlé kontexty, ale bojují s uvažováním. ToTAL zavádí opakovaně použitelné "myšlenkové šablony", které strukturují důkazy a vedou multi-hop inferenci s faktickými dokumenty.