🚀 アリババのQwenチームは、テキストから画像への生成に革命をもたらす20BパラムのMMDiTモデルであるQwen-Imageをドロップしました。見事なポスターのためのネイティブのピクセル内テキストレンダリング、バイリンガルのEN / CNサポート、フォトリアリスティック/アニメ/スタイルに優れています。Hyperbolic & Gradio にモデルをデプロイするための完全なガイドを含む技術記事をご覧ください
アーキテクチャ: MLLM (セマンティクス用の Qwen2.5-VL 7B)、VAE (テキストが豊富な偵察用に微調整)、および 20B MMDiT (ODE によるフロー マッチング、スケーラブルな解像度のための対角線コンカクト) を組み合わせます。 プロセス: ノイズ除去→デコード→プロンプト→偉業。編集用のデュアルエンコーディングを備えたTI2I。
イノベーション: 大規模なデータ パイプライン (数十億のペア: 自然 55%、デザイン 27%、人間 13%、合成 5%;EN/CN 分割)。テキスト習得のためのカリキュラム学習2Dアライメント用のMSRoPE(RoPE上)。マルチタスクT2I/TI2I/I2I。GenEvalのSOTA、テキストベンチ!
GPT-Image-1: フォトリアリズムにマッチし、バイリンガルのテキスト/複数行を粉砕し、編集の一貫性 (オブジェクト/ポーズの忠実度が向上します)。これがオープンソースとAPIのエッジです!
GPUインフラ:~24GB VRAM推定(BF16では20B x 1.2)。推論は単一のH100でスムーズに実行されます。 Hyperbolic の On-Demand Cloud H100 を 1.49 ドル/時間でテストし、インタラクティブな Gradio UI 用に公式モデル カードから適応したシンプルな Python スクリプトを使用してテストしました
記事全文をお読みください: Gradio でのアーキテクチャの詳細、イノベーション、比較、コンピューティング分析、完全なコードとデプロイ手順。Qwen-Image を自分で実行して、作成した画像を私たちと共有してください! ブログ全文を読む: H100 を Hyperbolic で 1.49 ドル/時間でレンタルできます。
記事全文をお読みください: Gradio でのアーキテクチャの詳細、イノベーション、比較、コンピューティング分析、完全なコードとデプロイ手順。Qwen-Image を自分で実行して、作成した画像を私たちと共有してください! ブログ全文を読む: H100 を Hyperbolic で 1.49 ドル/時間でレンタルできます。
6.66K