Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tänään jaamme ensimmäisen tutkimustyömme, joka tutkii kielimallien diffuusiota: Autoregressiiviset diffuusionäkökielimallit
Kehitämme huippuluokan diffuusionäkökielimallin, Autoregressive-to-Diffusion (A2D), mukauttamalla olemassa olevaa autoregressiivistä näkökielimallia rinnakkaisdiffuusiodekoodausta varten. Lähestymistapamme avulla on helppo avata diffuusiokielimallien nopeuden ja laadun kompromissi ilman koulutusta tyhjästä hyödyntämällä olemassa olevia valmiiksi koulutettuja autoregressiivisiä malleja.

Standard Vision-language -mallit (VLM) päättelevät kuvista ja videoista kielen kautta, mikä tukee monenlaisia sovelluksia kuvatekstityksestä visuaaliseen kysymyksiin vastaamiseen.
Autoregressiiviset VLM:t luovat tunnuksia peräkkäin, mikä estää rinnakkaistamisen ja rajoittaa päättelyn suorituskykyä. Diffuusiodekooderit ovat nousemassa lupaavaksi vaihtoehdoksi VLM:ien autoregressiivisille dekoodereille mahdollistamalla rinnakkaisen tokenien luomisen nopeampaa päättelyä varten.
Koulutimme huippuluokan diffuusio-VLM:n, A2D-VL 7B:n, rinnakkaisgenerointia varten hienosäätämällä olemassa olevaa autoregressiivistä VLM:ää diffuusiokielen mallinnustehtävässä käyttämällä naamioitua diffuusiokehystä, joka "kohinaa" tokeneita peittämällä ne ja "de-noise" -tokeneita ennustamalla alkuperäisiä tokeneita.
Kehitämme uusia sovitustekniikoita, jotka lisäävät vähitellen tehtävän vaikeutta hienosäädön aikana siirtyäkseen sujuvasti peräkkäisestä rinnakkaisdekoodauksesta säilyttäen samalla perusmallin ominaisuudet hehkuttamalla sekä lohkon kokoa että melutasoa.
A2D-VL päihittää aiemmat diffuusio-VLM:t visuaalisessa kysymyksiin vastaamisessa, mutta vaatii huomattavasti vähemmän harjoituslaskentaa. Uudet adaptaatiotekniikkamme ovat kriittisiä malliominaisuuksien säilyttämiseksi, mikä mahdollistaa vihdoin huippuluokan autoregressiivisten VLM:ien muuntamisen diffuusioksi minimaalisella laadun vaikutuksella.

Tämä työ on askel kohti tavoitettamme yhdistää multimodaalinen ymmärrys ja tuotanto maailman multimodaalisten simulaattoreiden rakentamiseksi.
Opi lisää:
93,91K
Johtavat
Rankkaus
Suosikit