Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
I dag deler vi vårt første forskningsarbeid som utforsker diffusjon for språkmodeller: Autoregressive-to-Diffusion Vision Language Models
Vi utvikler en toppmoderne diffusjonssynsspråkmodell, Autoregressive-to-Diffusion (A2D), ved å tilpasse en eksisterende autoregressiv synsspråkmodell for parallell diffusjonsavkoding. Vår tilnærming gjør det enkelt å låse opp avveiningen mellom hastighet og kvalitet av diffusjonsspråkmodeller uten å trene fra bunnen av, ved å utnytte eksisterende forhåndstrente autoregressive modeller.

Standard Vision-språkmodeller (VLM-er) resonnerer om bilder og videoer gjennom språk, og driver et bredt spekter av applikasjoner fra bildeteksting til visuell spørsmålsbesvarelse.
Autoregressive VLM-er genererer tokener sekvensielt, noe som forhindrer parallellisering og begrenser gjennomstrømming av slutninger. Diffusjonsdekodere dukker opp som et lovende alternativ til autoregressive dekodere i VLM-er ved å muliggjøre parallell tokengenerering for raskere slutning.
Vi trente en toppmoderne diffusjons-VLM, A2D-VL 7B for parallell generering ved å finjustere en eksisterende autoregressiv VLM på diffusjonsspråkmodelleringsoppgaven, ved å bruke det maskerte diffusjonsrammeverket som "støyer" tokens ved å maskere dem og "de-noises" tokens ved å forutsi de originale tokenene.
Vi utvikler nye tilpasningsteknikker som gradvis øker oppgavens vanskelighetsgrad under finjustering for jevn overgang fra sekvensiell til parallell dekoding, samtidig som basismodellens evner bevares, ved å gløde både blokkstørrelsen og støynivået.
A2D-VL overgår tidligere diffusjons-VLM-er i visuelle spørsmålssvar, samtidig som det krever betydelig mindre treningsdatabehandling. Våre nye tilpasningsteknikker er avgjørende for å beholde modellfunksjoner, og muliggjør endelig konvertering av toppmoderne autoregressive VLM-er til diffusjon med minimal innvirkning på kvaliteten.

Dette arbeidet er et skritt mot vårt mål om å forene multimodal forståelse og generering for å bygge multimodale simulatorer av verden.
Få mer informasjon:
93,91K
Topp
Rangering
Favoritter