本日は、言語モデルの拡散を探求する最初の研究成果である自己回帰から拡散へのビジョン言語モデルを共有します。 既存の自己回帰ビジョン言語モデルを並列拡散デコードに適応させることにより、最先端の拡散ビジョン言語モデルであるAutoregressive-to-Diffusion(A2D)を開発しています。私たちのアプローチでは、既存の事前トレーニング済み自己回帰モデルを活用することで、ゼロからトレーニングすることなく、拡散言語モデルの速度と品質のトレードオフを簡単に解き放つことができます。
標準ビジョン言語モデル (VLM) は、言語を通じて画像やビデオを推論し、画像キャプションから視覚的な質問応答まで、さまざまなアプリケーションを強化します。 自己回帰 VLM はトークンを順番に生成するため、並列化が妨げられ、推論スループットが制限されます。拡散デコーダーは、並列トークン生成を有効にして推論を高速化することで、VLM の自己回帰デコーダーの有望な代替手段として浮上しています。
私たちは、トークンをマスキングして「ノイズ」し、元のトークンを予測してトークンを「ノイズ除去」するマスクされた拡散フレームワークを使用して、拡散言語モデリングタスクで既存の自己回帰VLMを微調整することにより、最先端の拡散VLM、A2D-VL 7Bを並列生成用にトレーニングしました。 ブロックサイズとノイズレベルの両方をアニーリングすることで、ベースモデルの機能を維持しながら、シーケンシャルデコードからパラレルデコードにスムーズに移行するために、微調整中にタスクの難易度を徐々に上げる新しい適応技術を開発します。
A2D-VL は、視覚的な質問応答において以前の拡散 VLM よりも優れていますが、必要なトレーニング コンピューティングが大幅に少なくなります。当社の新しい適応技術は、モデルの機能を維持するために重要であり、最終的に、品質への影響を最小限に抑えながら、最先端の自己回帰VLMを拡散に変換できるようにします。
この作業は、世界のマルチモーダルシミュレータを構築するために、マルチモーダルの理解と生成を統合するという私たちの目標に向けた一歩です。 詳細情報:
93.92K