A ByteDance Seed e a Stanford apresentam o Mixture of Contexts (MoC) para a geração de vídeos longos, abordando o gargalo de memória com um novo módulo de roteamento de atenção esparsa. Isso permite vídeos consistentes de um minuto com o custo de vídeos curtos.
31,3K