🚀 A equipa Qwen da Alibaba lançou o Qwen-Image, um modelo MMDiT com 20B de parâmetros que revoluciona a geração de texto para imagem! Renderização de texto nativo em pixel para cartazes impressionantes, suporte bilíngue EN/CN, destaca-se em estilos fotorealistas/anime. Mergulhe no nosso artigo técnico com um guia completo para implementar o modelo no Hyperbolic & Gradio.
Arquitetura: Combina MLLM (Qwen2.5-VL 7B para semântica), VAE (ajustado para reconstruições ricas em texto) e 20B MMDiT (ajuste de fluxo com ODEs, concatenação diagonal para res escalável). Processo: Prompt → características → desruído → decodificar. TI2I com codificação dupla para edições.
Inovações: Pipeline de dados massivo (bilhões de pares: Natureza 55%, Design 27%, Pessoas 13%, Sintético 5%; divisões EN/CN). Aprendizagem curricular para domínio de texto. MSRoPE (sobre RoPE) para alinhamento 2D. Multi-tarefa T2I/TI2I/I2I. SOTA no GenEval, bancos de texto!
Vs. GPT-Image-1: Iguala o fotorrealismo, supera texto bilíngue/múltiplas linhas, consistência de edição (melhor fidelidade em objetos/poses). Esta é a vantagem do Open-source vs. API!
Infraestrutura GPU: ~24GB VRAM estimados (20B x 1.2 em BF16). A inferência corre suavemente em um único H100. Testámos na Cloud H100 sob demanda da Hyperbolic por $1.49/hora, com um simples script em python adaptado do cartão de modelo oficial para uma interface Gradio interativa.
Leia o nosso artigo completo: detalhes da arquitetura, inovações, comparação, análise de computação, código COMPLETO e passos de implementação no Gradio. Execute o Qwen-Image você mesmo e compartilhe suas criações de imagem conosco! Leia o blog completo: Alugue H100s agora na Hyperbolic por $1,49/hora:
Leia o nosso artigo completo: detalhes da arquitetura, inovações, comparação, análise de computação, código COMPLETO e passos de implementação no Gradio. Execute o Qwen-Image você mesmo e compartilhe suas criações de imagem conosco! Leia o blog completo: Alugue H100s agora na Hyperbolic por $1,49/hora:
7,46K