🚨 Salesforce Research gjorde nettopp noe vilt med BLIP3o-NEXT. Den slår sammen autoregressiv resonnement (som GPT), diffusjonssyntese (som Imagen) og forsterkningsjustering (som RLHF) ... Alt i en enhetlig treningssløyfe. Den fusjonen kan være den manglende koblingen mellom tekst og piksler ↓