Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hoje estamos compartilhando nosso primeiro trabalho de pesquisa explorando a difusão para modelos de linguagem: Modelos de linguagem de visão autorregressiva para difusão
Desenvolvemos um modelo de linguagem de visão de difusão de última geração, Autoregressive-to-Diffusion (A2D), adaptando um modelo de linguagem de visão autorregressiva existente para decodificação de difusão paralela. Nossa abordagem facilita o desbloqueio da relação velocidade-qualidade dos modelos de linguagem de difusão sem treinamento do zero, aproveitando os modelos autorregressivos pré-treinados existentes.

Os modelos de linguagem de visão padrão (VLMs) raciocinam sobre imagens e vídeos por meio da linguagem, alimentando uma ampla variedade de aplicações, desde legendas de imagens até respostas a perguntas visuais.
Os VLMs autorregressivos geram tokens sequencialmente, o que impede a paralelização e limita a taxa de transferência de inferência. Os decodificadores de difusão estão emergindo como uma alternativa promissora aos decodificadores autorregressivos em VLMs, permitindo a geração paralela de tokens para inferência mais rápida.
Treinamos um VLM de difusão de última geração, A2D-VL 7B para geração paralela, ajustando um VLM autorregressivo existente na tarefa de modelagem de linguagem de difusão, usando a estrutura de difusão mascarada que "ruído" tokens mascarando-os e "de-noises" tokens prevendo os tokens originais.
Desenvolvemos novas técnicas de adaptação que aumentam gradualmente a dificuldade da tarefa durante o ajuste fino para fazer uma transição suave da decodificação sequencial para a paralela, preservando as capacidades do modelo básico, recozendo o tamanho do bloco e o nível de ruído.
O A2D-VL supera os VLMs de difusão anterior em resposta visual a perguntas, exigindo significativamente menos computação de treinamento. Nossas novas técnicas de adaptação são essenciais para reter os recursos do modelo, finalmente permitindo a conversão de VLMs autorregressivos de última geração em difusão com impacto mínimo na qualidade.

Este trabalho é um passo em direção ao nosso objetivo de unificar a compreensão e a geração multimodal para construir simuladores multimodais do mundo.
Saiba Mais:
93,92K
Melhores
Classificação
Favoritos