Idag delar vi med oss av vårt första forskningsarbete som utforskar diffusion för språkmodeller: Autoregressive-to-Diffusion Vision Language Models Vi utvecklar en state-of-the-art diffusion vision språkmodell, Autoregressive-to-Diffusion (A2D), genom att anpassa en befintlig autoregressiv vision språkmodell för parallell diffusionsavkodning. Vårt tillvägagångssätt gör det enkelt att låsa upp avvägningen mellan hastighet och kvalitet för diffusionsspråkmodeller utan träning från grunden, genom att utnyttja befintliga förtränade autoregressiva modeller.
Standard Vision-språkmodeller (VLM) resonerar om bilder och videor via språket och driver en mängd olika program från bildtextning till visuella frågesvar. Autoregressiva VLM:er genererar token sekventiellt, vilket förhindrar parallellisering och begränsar dataflödet för slutsatsdragning. Diffusionsavkodare växer fram som ett lovande alternativ till autoregressiva avkodare i VLM:er genom att möjliggöra parallell tokengenerering för snabbare slutsatsdragning.
Vi tränade en state-of-the-art diffusion VLM, A2D-VL 7B för parallell generering genom att finjustera en befintlig autoregressiv VLM på diffusionsspråkmodelleringsuppgiften, med hjälp av det maskerade diffusionsramverket som "brusar" tokens genom att maskera dem och "de-noises" tokens genom att förutsäga de ursprungliga tokens. Vi utvecklar nya anpassningstekniker som gradvis ökar uppgiftens svårighetsgrad under finjustering för att smidigt övergå från sekventiell till parallell avkodning samtidigt som basmodellens möjligheter bevaras, genom att glödga både blockstorleken och ljudnivån.
A2D-VL överträffar tidigare diffusions-VLM:er när det gäller visuella frågesvar samtidigt som det kräver betydligt mindre träningsberäkning. Våra nya anpassningstekniker är avgörande för att behålla modellkapaciteten, vilket slutligen möjliggör konvertering av toppmoderna autoregressiva VLM:er till diffusion med minimal inverkan på kvaliteten.
Detta arbete är ett steg mot vårt mål att förena multimodal förståelse och generering för att bygga multimodala simulatorer av världen. Lära sig mer:
93,91K