Hoy compartimos nuestro primer trabajo de investigación explorando la difusión para modelos de lenguaje: Modelos de Lenguaje Visual de Autoregresión a Difusión Desarrollamos un modelo de lenguaje visual de difusión de última generación, Autoregresión a Difusión (A2D), adaptando un modelo de lenguaje visual autoregresivo existente para la decodificación de difusión paralela. Nuestro enfoque facilita desbloquear la compensación entre velocidad y calidad de los modelos de lenguaje de difusión sin necesidad de entrenar desde cero, aprovechando los modelos autoregresivos preentrenados existentes.
Los modelos de visión-lenguaje (VLMs) estándar razonan sobre imágenes y videos a través del lenguaje, impulsando una amplia variedad de aplicaciones, desde la generación de descripciones de imágenes hasta la respuesta a preguntas visuales. Los VLMs autorregresivos generan tokens secuencialmente, lo que impide la paralelización y limita el rendimiento de inferencia. Los decodificadores de difusión están surgiendo como una alternativa prometedora a los decodificadores autorregresivos en los VLMs al permitir la generación de tokens en paralelo para una inferencia más rápida.
Entrenamos un VLM de difusión de última generación, A2D-VL 7B, para generación paralela al ajustar un VLM autorregresivo existente en la tarea de modelado de lenguaje de difusión, utilizando el marco de difusión enmascarada que "ruidos" los tokens al enmascararlos y "desruidos" los tokens al predecir los tokens originales. Desarrollamos técnicas de adaptación novedosas que aumentan gradualmente la dificultad de la tarea durante el ajuste fino para hacer una transición suave de la decodificación secuencial a la paralela, mientras se preservan las capacidades del modelo base, al anhelar tanto el tamaño del bloque como el nivel de ruido.
A2D-VL supera a los VLM de difusión anteriores en la respuesta a preguntas visuales mientras requiere significativamente menos computación para el entrenamiento. Nuestras novedosas técnicas de adaptación son críticas para mantener las capacidades del modelo, permitiendo finalmente la conversión de VLM autoregresivos de última generación a difusión con un impacto mínimo en la calidad.
Este trabajo es un paso hacia nuestro objetivo de unificar la comprensión y generación multimodal para construir simuladores multimodales del mundo. Aprende más:
93,93K