Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Aujourd'hui, nous partageons notre premier travail de recherche explorant la diffusion pour les modèles de langage : Modèles de Langage Vision Autoregressifs à Diffusion
Nous développons un modèle de langage vision à diffusion de pointe, Autoregressive-to-Diffusion (A2D), en adaptant un modèle de langage vision autoregressif existant pour le décodage de diffusion parallèle. Notre approche facilite le déverrouillage du compromis vitesse-qualité des modèles de langage à diffusion sans entraîner depuis le début, en tirant parti des modèles autoregressifs pré-entraînés existants.

Les modèles de vision-langage standard (VLMs) raisonnent sur les images et les vidéos à travers le langage, alimentant une grande variété d'applications allant de la légende d'image à la réponse à des questions visuelles.
Les VLMs autoregressifs génèrent des jetons de manière séquentielle, ce qui empêche la parallélisation et limite le débit d'inférence. Les décodeurs de diffusion émergent comme une alternative prometteuse aux décodeurs autoregressifs dans les VLMs en permettant une génération de jetons parallèle pour une inférence plus rapide.
Nous avons entraîné un VLM de diffusion à la pointe de la technologie, A2D-VL 7B, pour la génération parallèle en affinant un VLM autorégressif existant sur la tâche de modélisation du langage de diffusion, en utilisant le cadre de diffusion masquée qui "bruite" les tokens en les masquant et "dénoue" les tokens en prédisant les tokens originaux.
Nous développons des techniques d'adaptation novatrices qui augmentent progressivement la difficulté de la tâche pendant l'affinage pour passer en douceur de la décodage séquentiel au décodage parallèle tout en préservant les capacités du modèle de base, en ajustant à la fois la taille des blocs et le niveau de bruit.
A2D-VL surpasse les VLMs de diffusion précédents dans le domaine de la question-réponse visuelle tout en nécessitant beaucoup moins de puissance de calcul pour l'entraînement. Nos techniques d'adaptation novatrices sont essentielles pour conserver les capacités du modèle, permettant enfin la conversion des VLMs autoregressifs à la pointe de la technologie en diffusion avec un impact minimal sur la qualité.

Ce travail est un pas vers notre objectif d'unifier la compréhension et la génération multimodales afin de construire des simulateurs multimodaux du monde.
En savoir plus :
93,92K
Meilleurs
Classement
Favoris