🚀 A equipe Qwen do Alibaba lançou o Qwen-Image, um modelo MMDiT de 20B-param que revoluciona a geração de texto para imagem! Renderização de texto nativa em pixel para pôsteres impressionantes, suporte bilíngue EN/CN, se destaca em estilos fotorrealistas/anime. Mergulhe em nosso artigo técnico com guia completo para implantar o modelo no Hyperbolic & Gradio
Arquitetura: Combina MLLM (Qwen2.5-VL 7B para semântica), VAE (ajustado para reconhecimento rico em texto), & 20B MMDiT (correspondência de fluxo com ODEs, concat diagonal para res escalável). Processo: Solicite → talentos → redução de ruído → decodificação. TI2I com codificação dupla para edições.
Inovações: Pipeline de dados massivo (bilhões de pares: Natureza 55%, Design 27%, Pessoas 13%, Sintético 5%; Divisões EN/CN). Aprendizagem curricular para domínio de texto. MSRoPE (em RoPE) para alinhamento 2D. Multitarefa T2I/TI2I/I2I. SOTA em GenEval, bancos de texto!
Vs. GPT-Image-1: Combina fotorrealismo, esmaga texto bilíngue/multilinha, consistência de edição (melhor fidelidade em objetos/poses). Esta é a vantagem do código aberto vs. API!
Infra da GPU: ~ 24 GB VRAM est. (20B x 1,2 em BF16). A inferência é executada sem problemas em um único H100. Testamos no On-Demand Cloud H100 da Hyperbolic por US$ 1,49/h, com um script python simples adaptado do cartão de modelo oficial para uma interface de usuário interativa do Gradio
Leia nosso artigo completo: Detalhes da arquitetura, inovações, comparação, análise de computação, código COMPLETO e etapas de implantação no Gradio. Execute você mesmo o Qwen-Image e compartilhe suas criações de imagens conosco! Leia o blog completo: Alugue H100s agora na Hyperbolic por US$ 1,49/h:
Leia nosso artigo completo: Detalhes da arquitetura, inovações, comparação, análise de computação, código COMPLETO e etapas de implantação no Gradio. Execute você mesmo o Qwen-Image e compartilhe suas criações de imagens conosco! Leia o blog completo: Alugue H100s agora na Hyperbolic por US$ 1,49/h:
7,48K