🚀 Alibabas Qwen-team droppet Qwen-Image, en 20B-param MMDiT-modell som revolusjonerer tekst-til-bilde-gen! Innebygd tekstgjengivelse i piksler for fantastiske plakater, tospråklig EN/CN-støtte, utmerker seg i fotorealistisk/anime/stiler. Dykk ned i vår tekniske artikkel med full guide for å distribuere modellen på Hyperbolic & Gradio
Arkitektur: Kombinerer MLLM (Qwen2.5-VL 7B for semantikk), VAE (finjustert for tekstrik recon) og 20B MMDiT (flytmatching med ODE-er, diagonal konkat for skalerbar oppløsning). Prosess: Be om → bragder → å forringe → dekode. TI2I med dobbel koding for redigeringer.
Innovasjoner: Massiv datapipeline (milliarder par: Natur 55 %, Design 27 %, Mennesker 13 %, Syntetisk 5 %; EN/CN-splittelser). Læreplanlæring for tekstmestring. MSRoPE (på RoPE) for 2D-justering. Multi-task T2I/TI2I/I2I. SOTA på GenEval, tekstbenker!
vs. GPT-Image-1: Matcher fotorealisme, knuser tospråklig tekst/flerlinje, redigeringskonsistens (bedre troskap i objekter/positurer). Dette er kanten av åpen kildekode vs. API!
GPU infra: ~24 GB VRAM-estimert (20B x 1.2 i BF16). Inferens går jevnt på en enkelt H100. Vi testet på Hyperbolics On-Demand Cloud H100 for $1.49/time, med et enkelt python-skript tilpasset fra det offisielle modellkortet for et interaktivt Gradio-brukergrensesnitt
Les hele artikkelen vår: Arkitekturdetaljer, innovasjoner, sammenligning, dataanalyse, KOMPLETT kode og distribusjonstrinn på Gradio. Kjør Qwen-Image selv og del bildekreasjonene dine med oss! Les hele bloggen: Lei H100-er nå på Hyperbolic for $1.49/time:
Les hele artikkelen vår: Arkitekturdetaljer, innovasjoner, sammenligning, dataanalyse, KOMPLETT kode og distribusjonstrinn på Gradio. Kjør Qwen-Image selv og del bildekreasjonene dine med oss! Les hele bloggen: Lei H100-er nå på Hyperbolic for $1.49/time:
5,58K