A ByteDance Seed e Stanford apresentam a Mistura de Contextos (MoC) para geração de vídeos longos, abordando o gargalo de memória com um novo módulo de roteamento de atenção esparsa. Ele permite vídeos consistentes de um minuto com custo de vídeo curto.
31,31K