🚨 Nghiên cứu Salesforce vừa làm điều gì đó điên rồ với BLIP3o-NEXT. Nó kết hợp lý luận tự hồi quy (như GPT), tổng hợp khuếch tán (như Imagen), và căn chỉnh tăng cường (như RLHF)… Tất cả trong một vòng lặp đào tạo thống nhất. Sự kết hợp đó có thể là liên kết còn thiếu giữa văn bản và pixel ↓