ByteDance Seed y Stanford introducen Mixture of Contexts (MoC) para la generación de videos largos, abordando el cuello de botella de la memoria con un novedoso módulo de enrutamiento de atención dispersa. Permite videos consistentes de un minuto de duración con un costo de video corto.
31.32K