🚀 Echipa Qwen de la Alibaba a renunțat la Qwen-Image, un model MMDiT de 20B-param care revoluționează generarea text-to-image! Redarea nativă a textului în pixeli pentru postere uimitoare, suport bilingv EN/CN, excelează în fotorealist/anime/stiluri. Scufundați-vă în articolul nostru tehnic cu ghid complet pentru a implementa modelul pe Hyperbolic și Gradio
Arhitectură: Combină MLLM (Qwen2.5-VL 7B pentru semantică), VAE (reglat fin pentru recunoaștere bogată în text) și 20B MMDiT (potrivire a fluxului cu ODE, concat diagonal pentru rezoluție scalabilă). Proces: Solicitați → talente → eliminarea zgomotului → decodarea. TI2I cu codificare duală pentru editări.
Inovații: Portofoliu masiv de date (miliarde de perechi: Natură 55%, Design 27%, Oameni 13%, Sintetic 5%; Divizări EN/CN). Învățarea curriculumului pentru stăpânirea textului. MSRoPE (pe RoPE) pentru aliniere 2D. T2I/TI2I/I2I multifuncțional. SOTA pe GenEval, bănci de text!
Vs. GPT-Image-1: Se potrivește cu fotorealismul, zdrobește textul bilingv/multi-linie, consistența editării (fidelitate mai bună în obiecte/poziții). Acesta este avantajul Open-source vs. API!
Infrastructura GPU: ~24GB VRAM est. (20B x 1.2 in BF16). Inferența funcționează fără probleme pe un singur H100. Am testat pe Hyperbolic On-Demand Cloud H100 pentru 1,49 USD/oră, cu un script python simplu adaptat de pe cardul oficial al modelului pentru o interfață interactivă Gradio
Citiți articolul nostru complet: Detalii despre arhitectură, inovații, comparație, analiză de calcul, cod COMPLET și pași de implementare pe Gradio. Rulați Qwen-Image și împărtășiți-vă creațiile de imagini cu noi! Citiți blogul complet: Închiriați H100 acum pe Hyperbolic pentru 1.49 USD/oră:
Citiți articolul nostru complet: Detalii despre arhitectură, inovații, comparație, analiză de calcul, cod COMPLET și pași de implementare pe Gradio. Rulați Qwen-Image și împărtășiți-vă creațiile de imagini cu noi! Citiți blogul complet: Închiriați H100 acum pe Hyperbolic pentru 1.49 USD/oră:
7,49K