ByteDance Seed et Stanford introduisent le Mixture of Contexts (MoC) pour la génération de vidéos longues, s'attaquant au goulot d'étranglement de la mémoire avec un nouveau module de routage d'attention sparse. Cela permet de créer des vidéos cohérentes d'une minute à un coût de vidéo courte.
31,31K