🚀 Il team Qwen di Alibaba ha lanciato Qwen-Image, un modello MMDiT da 20 miliardi di parametri che rivoluziona la generazione di immagini da testo! Rendering del testo nativo in-pixel per poster straordinari, supporto bilingue EN/CN, eccelle in stili fotorealistici/anime. Scopri il nostro articolo tecnico con la guida completa per implementare il modello su Hyperbolic e Gradio.
Architettura: Combina MLLM (Qwen2.5-VL 7B per la semantica), VAE (ottimizzato per la ricostruzione ricca di testo) e 20B MMDiT (matching di flusso con ODE, concatenazione diagonale per una risoluzione scalabile). Processo: Prompt → caratteristiche → denoising → decodifica. TI2I con dual-encoding per modifiche.
Innovazioni: pipeline di dati massivi (miliardi di coppie: Natura 55%, Design 27%, Persone 13%, Sintetico 5%; suddivisioni EN/CN). Apprendimento curricolare per la padronanza del testo. MSRoPE (su RoPE) per l'allineamento 2D. Multi-task T2I/TI2I/I2I. SOTA su GenEval, banchi di testo!
Vs. GPT-Image-1: Eguaglia il fotorealismo, supera il testo bilingue/multi-linea, coerenza nell'editing (migliore fedeltà negli oggetti/pose). Questo è il confine tra Open-source e API!
Infrastruttura GPU: ~24GB VRAM stimati. (20B x 1.2 in BF16). L'inferenza funziona senza problemi su un singolo H100. Abbiamo testato su Hyperbolic's On-Demand Cloud H100 per $1.49/ora, con un semplice script python adattato dalla scheda modello ufficiale per un'interfaccia Gradio interattiva.
Leggi il nostro articolo completo: dettagli sull'architettura, innovazioni, confronto, analisi computazionale, codice COMPLETO e passaggi per il deploy su Gradio. Esegui Qwen-Image tu stesso e condividi le tue creazioni di immagini con noi! Leggi il blog completo: Noleggia H100 ora su Hyperbolic per $1.49/ora:
Leggi il nostro articolo completo: dettagli sull'architettura, innovazioni, confronto, analisi computazionale, codice COMPLETO e passaggi per il deploy su Gradio. Esegui Qwen-Image tu stesso e condividi le tue creazioni di immagini con noi! Leggi il blog completo: Noleggia H100 ora su Hyperbolic per $1.49/ora:
6,66K