Tänään jaamme ensimmäisen tutkimustyömme, joka tutkii kielimallien diffuusiota: Autoregressiiviset diffuusionäkökielimallit Kehitämme huippuluokan diffuusionäkökielimallin, Autoregressive-to-Diffusion (A2D), mukauttamalla olemassa olevaa autoregressiivistä näkökielimallia rinnakkaisdiffuusiodekoodausta varten. Lähestymistapamme avulla on helppo avata diffuusiokielimallien nopeuden ja laadun kompromissi ilman koulutusta tyhjästä hyödyntämällä olemassa olevia valmiiksi koulutettuja autoregressiivisiä malleja.
Standard Vision-language -mallit (VLM) päättelevät kuvista ja videoista kielen kautta, mikä tukee monenlaisia sovelluksia kuvatekstityksestä visuaaliseen kysymyksiin vastaamiseen. Autoregressiiviset VLM:t luovat tunnuksia peräkkäin, mikä estää rinnakkaistamisen ja rajoittaa päättelyn suorituskykyä. Diffuusiodekooderit ovat nousemassa lupaavaksi vaihtoehdoksi VLM:ien autoregressiivisille dekoodereille mahdollistamalla rinnakkaisen tokenien luomisen nopeampaa päättelyä varten.
Koulutimme huippuluokan diffuusio-VLM:n, A2D-VL 7B:n, rinnakkaisgenerointia varten hienosäätämällä olemassa olevaa autoregressiivistä VLM:ää diffuusiokielen mallinnustehtävässä käyttämällä naamioitua diffuusiokehystä, joka "kohinaa" tokeneita peittämällä ne ja "de-noise" -tokeneita ennustamalla alkuperäisiä tokeneita. Kehitämme uusia sovitustekniikoita, jotka lisäävät vähitellen tehtävän vaikeutta hienosäädön aikana siirtyäkseen sujuvasti peräkkäisestä rinnakkaisdekoodauksesta säilyttäen samalla perusmallin ominaisuudet hehkuttamalla sekä lohkon kokoa että melutasoa.
A2D-VL päihittää aiemmat diffuusio-VLM:t visuaalisessa kysymyksiin vastaamisessa, mutta vaatii huomattavasti vähemmän harjoituslaskentaa. Uudet adaptaatiotekniikkamme ovat kriittisiä malliominaisuuksien säilyttämiseksi, mikä mahdollistaa vihdoin huippuluokan autoregressiivisten VLM:ien muuntamisen diffuusioksi minimaalisella laadun vaikutuksella.
Tämä työ on askel kohti tavoitettamme yhdistää multimodaalinen ymmärrys ja tuotanto maailman multimodaalisten simulaattoreiden rakentamiseksi. Opi lisää:
93,91K