🚀 Tim Qwen Alibaba merilis Qwen-Image, model MMDiT 20B-param yang merevolusi generasi text-to-image! Rendering teks dalam piksel asli untuk poster yang menakjubkan, dukungan EN/CN dwibahasa, unggul dalam fotorealistis/anime/gaya. Selami artikel teknis kami dengan panduan lengkap untuk menerapkan model di Hyperbolic & Gradio
Arsitektur: Menggabungkan MLLM (Qwen2.5-VL 7B untuk semantik), VAE (disesuaikan untuk pengintaian kaya teks), & 20B MMDiT (pencocokan aliran dengan ODE, koncat diagonal untuk res yang dapat diskalakan). Proses: Prompt → prestasi → denoising → decode. TI2I dengan pengkodean ganda untuk suntingan.
Inovasi: Alur data besar-besaran (miliaran pasang: Alam 55%, Desain 27%, Orang 13%, Sintetis 5%; Split EN/CN). Pembelajaran kurikulum untuk penguasaan teks. MSRoPE (pada RoPE) untuk penyelarasan 2D. Multi-tugas T2I/TI2I/I2I. SOTA di GenEval, bangku teks!
Vs. GPT-Image-1: Mencocokkan fotorealisme, menghancurkan teks dwibahasa/multi-baris, konsistensi pengeditan (kesetiaan yang lebih baik dalam objek/pose). Ini adalah keunggulan Open-source vs. API!
Infra GPU: ~24GB VRAM est. (20B x 1.2 di BF16). Inferensi berjalan lancar pada satu H100. Kami menguji On-Demand Cloud H100 Hyperbolic seharga $1.49/jam, dengan skrip python sederhana yang diadaptasi dari kartu model resmi untuk UI Gradio interaktif
Baca artikel lengkap kami: Detail arsitektur, inovasi, perbandingan, analisis komputasi, kode LENGKAP & menerapkan langkah-langkah di Gradio. Jalankan Qwen-Image sendiri dan bagikan kreasi gambar Anda dengan kami! Baca blog lengkapnya: Sewa H100 sekarang di Hyperbolic seharga $1.49/jam:
Baca artikel lengkap kami: Detail arsitektur, inovasi, perbandingan, analisis komputasi, kode LENGKAP & menerapkan langkah-langkah di Gradio. Jalankan Qwen-Image sendiri dan bagikan kreasi gambar Anda dengan kami! Baca blog lengkapnya: Sewa H100 sekarang di Hyperbolic seharga $1.49/jam:
7,48K