Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Сьогодні ми ділимося нашою першою дослідницькою роботою, присвяченою вивченню дифузії для мовних моделей: Мовні моделі авторегресійного до дифузійного зору
Ми розробляємо сучасну модель мови дифузійного зору, Autoregressive-to-Diffusion (A2D), адаптуючи існуючу модель мови авторегресійного зору для паралельного дифузійного декодування. Наш підхід дозволяє легко розблокувати компроміс між швидкістю та якістю моделей дифузійних мов без навчання з нуля, використовуючи існуючі попередньо навчені авторегресійні моделі.

Стандартні моделі мови бачення (VLM) обговорюють зображення та відео за допомогою мови, забезпечуючи широкий спектр додатків від підписів до зображень до візуальних відповідей на запитання.
Авторегресійні VLM генерують токени послідовно, що запобігає розпаралелюванню та обмежує пропускну здатність висновків. Дифузійні декодери стають перспективною альтернативою авторегресивним декодерам у VLM, забезпечуючи паралельну генерацію токенів для швидшого висновку.
Ми навчили найсучасніший дифузійний VLM, A2D-VL 7B для паралельної генерації шляхом тонкого налаштування існуючого авторегресійного VLM на задачі моделювання дифузійної мови, використовуючи фреймворк маскованої дифузії, який «шумить» токени, маскуючи їх, і «видаляє шуми» токени, передбачаючи оригінальні токени.
Ми розробляємо нові методи адаптації, які поступово збільшують складність завдання під час тонкого налаштування, щоб плавно перейти від послідовного до паралельного декодування, зберігаючи при цьому можливості базової моделі, шляхом відпалу як розміру блоку, так і рівня шуму.
A2D-VL перевершує попередні дифузійні VLM у візуальних відповідях на запитання, вимагаючи значно менше тренувальних обчислень. Наші нові методи адаптації мають вирішальне значення для збереження можливостей моделі, що нарешті дозволяє перетворювати найсучасніші авторегресійні VLM на дифузію з мінімальним впливом на якість.

Ця робота є кроком на шляху до нашої мети – об'єднання мультимодального розуміння та генерації з метою побудови мультимодальних симуляторів світу.
Дізнатися більше:
93,92K
Найкращі
Рейтинг
Вибране