Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vandaag delen we ons eerste onderzoekswerk waarin we diffusie voor taalmodellen verkennen: Autoregressive-to-Diffusion Vision Language Models
We ontwikkelen een state-of-the-art diffusie vision language model, Autoregressive-to-Diffusion (A2D), door een bestaand autoregressief vision language model aan te passen voor parallelle diffusie-decodering. Onze aanpak maakt het eenvoudig om de snelheid-kwaliteitsafweging van diffusie taalmodellen te ontgrendelen zonder vanaf nul te trainen, door gebruik te maken van bestaande voorgetrainde autoregressieve modellen.

Standaard Vision-taalmodellen (VLM's) redeneren over afbeeldingen en video's via taal, wat een breed scala aan toepassingen mogelijk maakt, van afbeeldingsondertiteling tot visuele vraagbeantwoording.
Autoregressieve VLM's genereren tokens sequentieel, wat parallelisatie voorkomt en de inferentiecapaciteit beperkt. Diffusie-decoders komen op als een veelbelovende alternatieve voor autoregressieve decoders in VLM's door parallelle token-generatie mogelijk te maken voor snellere inferentie.
We hebben een state-of-the-art diffusie VLM, A2D-VL 7B, getraind voor parallelle generatie door een bestaande autoregressieve VLM te finetunen op de diffusietaalmodelleringstaak, met behulp van het gemaskeerde diffusiekader dat tokens "ruist" door ze te maskeren en tokens "de-ruist" door de originele tokens te voorspellen.
We ontwikkelen nieuwe aanpassingstechnieken die geleidelijk de taakmoeilijkheid verhogen tijdens het finetunen om soepel over te schakelen van sequentiële naar parallelle decodering, terwijl we de mogelijkheden van het basismodel behouden, door zowel de blokgrootte als het ruisniveau te temperen.
A2D-VL presteert beter dan eerdere diffusie VLM's in visuele vraag-en-antwoord, terwijl het aanzienlijk minder trainingscomputing vereist. Onze nieuwe aanpassingstechnieken zijn cruciaal voor het behouden van de modelcapaciteiten, waardoor eindelijk de conversie van state-of-the-art autoregressieve VLM's naar diffusie mogelijk wordt met minimale impact op de kwaliteit.

Dit werk is een stap in de richting van ons doel om multimodaal begrip en generatie te verenigen om multimodale simulators van de wereld te bouwen.
Leer meer:
93,92K
Boven
Positie
Favorieten