Hoje estamos compartilhando nosso primeiro trabalho de pesquisa explorando a difusão para modelos de linguagem: Modelos de linguagem de visão autorregressiva para difusão Desenvolvemos um modelo de linguagem de visão de difusão de última geração, Autoregressive-to-Diffusion (A2D), adaptando um modelo de linguagem de visão autorregressiva existente para decodificação de difusão paralela. Nossa abordagem facilita o desbloqueio da relação velocidade-qualidade dos modelos de linguagem de difusão sem treinamento do zero, aproveitando os modelos autorregressivos pré-treinados existentes.
Os modelos de linguagem de visão padrão (VLMs) raciocinam sobre imagens e vídeos por meio da linguagem, alimentando uma ampla variedade de aplicações, desde legendas de imagens até respostas a perguntas visuais. Os VLMs autorregressivos geram tokens sequencialmente, o que impede a paralelização e limita a taxa de transferência de inferência. Os decodificadores de difusão estão emergindo como uma alternativa promissora aos decodificadores autorregressivos em VLMs, permitindo a geração paralela de tokens para inferência mais rápida.
Treinamos um VLM de difusão de última geração, A2D-VL 7B para geração paralela, ajustando um VLM autorregressivo existente na tarefa de modelagem de linguagem de difusão, usando a estrutura de difusão mascarada que "ruído" tokens mascarando-os e "de-noises" tokens prevendo os tokens originais. Desenvolvemos novas técnicas de adaptação que aumentam gradualmente a dificuldade da tarefa durante o ajuste fino para fazer uma transição suave da decodificação sequencial para a paralela, preservando as capacidades do modelo básico, recozendo o tamanho do bloco e o nível de ruído.
O A2D-VL supera os VLMs de difusão anterior em resposta visual a perguntas, exigindo significativamente menos computação de treinamento. Nossas novas técnicas de adaptação são essenciais para reter os recursos do modelo, finalmente permitindo a conversão de VLMs autorregressivos de última geração em difusão com impacto mínimo na qualidade.
Este trabalho é um passo em direção ao nosso objetivo de unificar a compreensão e a geração multimodal para construir simuladores multimodais do mundo. Saiba Mais:
93,92K