🚨 Salesforce Research hat gerade etwas Wildes mit BLIP3o-NEXT gemacht. Es kombiniert autoregressives Denken (wie GPT), Diffusionssynthese (wie Imagen) und Verstärkungsanpassung (wie RLHF)… Alles in einer einheitlichen Trainingsschleife. Diese Fusion könnte die fehlende Verbindung zwischen Text und Pixeln sein ↓