ByteDance Seed e Stanford introducono il Mixture of Contexts (MoC) per la generazione di video lunghi, affrontando il collo di bottiglia della memoria con un nuovo modulo di routing dell'attenzione sparsa. Consente video coerenti di un minuto a un costo simile a quello dei video brevi.
31,32K