Hoje estamos a partilhar o nosso primeiro trabalho de pesquisa explorando a difusão para modelos de linguagem: Modelos de Linguagem de Visão de Difusão Autoregressiva Desenvolvemos um modelo de linguagem de visão de difusão de última geração, Autoregressive-to-Diffusion (A2D), adaptando um modelo de linguagem de visão autoregressivo existente para decodificação de difusão paralela. A nossa abordagem torna fácil desbloquear a relação entre velocidade e qualidade dos modelos de linguagem de difusão sem treinar do zero, aproveitando modelos autoregressivos pré-treinados existentes.
Modelos de linguagem de visão padrão (VLMs) raciocinam sobre imagens e vídeos através da linguagem, alimentando uma ampla variedade de aplicações, desde legendagem de imagens até resposta a perguntas visuais. Os VLMs autorregressivos geram tokens sequencialmente, o que impede a paralelização e limita a taxa de inferência. Decodificadores de difusão estão surgindo como uma alternativa promissora aos decodificadores autorregressivos em VLMs, permitindo a geração paralela de tokens para uma inferência mais rápida.
Treinámos um VLM de difusão de última geração, A2D-VL 7B, para geração paralela, ajustando um VLM autorregressivo existente na tarefa de modelagem de linguagem de difusão, utilizando a estrutura de difusão mascarada que "ruído" os tokens ao mascará-los e "desruído" os tokens ao prever os tokens originais. Desenvolvemos técnicas de adaptação inovadoras que aumentam gradualmente a dificuldade da tarefa durante o ajuste fino para fazer uma transição suave da decodificação sequencial para a decodificação paralela, mantendo ainda as capacidades do modelo base, ao anelar tanto o tamanho do bloco quanto o nível de ruído.
A2D-VL supera os VLMs de difusão anteriores em perguntas e respostas visuais, enquanto requer significativamente menos computação para treinamento. Nossas novas técnicas de adaptação são críticas para manter as capacidades do modelo, permitindo finalmente a conversão de VLMs autoregressivos de última geração para difusão com impacto mínimo na qualidade.
Este trabalho é um passo em direção ao nosso objetivo de unificar a compreensão e geração multimodal, a fim de construir simuladores multimodais do mundo. Saiba mais:
93,91K