ByteDance Seed y Stanford presentan Mixture of Contexts (MoC) para la generación de videos largos, abordando el cuello de botella de la memoria con un novedoso módulo de enrutamiento de atención dispersa. Permite videos consistentes de un minuto con el costo de un video corto.
28,11K