Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hoje estamos a partilhar o nosso primeiro trabalho de pesquisa explorando a difusão para modelos de linguagem: Modelos de Linguagem de Visão de Difusão Autoregressiva
Desenvolvemos um modelo de linguagem de visão de difusão de última geração, Autoregressive-to-Diffusion (A2D), adaptando um modelo de linguagem de visão autoregressivo existente para decodificação de difusão paralela. A nossa abordagem torna fácil desbloquear a relação entre velocidade e qualidade dos modelos de linguagem de difusão sem treinar do zero, aproveitando modelos autoregressivos pré-treinados existentes.

Modelos de linguagem de visão padrão (VLMs) raciocinam sobre imagens e vídeos através da linguagem, alimentando uma ampla variedade de aplicações, desde legendagem de imagens até resposta a perguntas visuais.
Os VLMs autorregressivos geram tokens sequencialmente, o que impede a paralelização e limita a taxa de inferência. Decodificadores de difusão estão surgindo como uma alternativa promissora aos decodificadores autorregressivos em VLMs, permitindo a geração paralela de tokens para uma inferência mais rápida.
Treinámos um VLM de difusão de última geração, A2D-VL 7B, para geração paralela, ajustando um VLM autorregressivo existente na tarefa de modelagem de linguagem de difusão, utilizando a estrutura de difusão mascarada que "ruído" os tokens ao mascará-los e "desruído" os tokens ao prever os tokens originais.
Desenvolvemos técnicas de adaptação inovadoras que aumentam gradualmente a dificuldade da tarefa durante o ajuste fino para fazer uma transição suave da decodificação sequencial para a decodificação paralela, mantendo ainda as capacidades do modelo base, ao anelar tanto o tamanho do bloco quanto o nível de ruído.
A2D-VL supera os VLMs de difusão anteriores em perguntas e respostas visuais, enquanto requer significativamente menos computação para treinamento. Nossas novas técnicas de adaptação são críticas para manter as capacidades do modelo, permitindo finalmente a conversão de VLMs autoregressivos de última geração para difusão com impacto mínimo na qualidade.

Este trabalho é um passo em direção ao nosso objetivo de unificar a compreensão e geração multimodal, a fim de construir simuladores multimodais do mundo.
Saiba mais:
93,91K
Top
Classificação
Favoritos