🚀 阿里巴巴的 Qwen 团队发布了 Qwen-Image,这是一款拥有 200 亿参数的 MMDiT 模型,彻底改变了文本到图像的生成!原生像素内文本渲染,适合制作惊艳的海报,支持双语 EN/CN,擅长于逼真的/动漫风格。深入阅读我们的技术文章,获取在 Hyperbolic 和 Gradio 上部署该模型的完整指南。
架构:结合了MLLM(Qwen2.5-VL 7B用于语义)、VAE(针对文本丰富重建进行微调)和20B MMDiT(使用ODE的流匹配,采用对角拼接以实现可扩展的分辨率)。 过程:提示 → 特征 → 去噪 → 解码。TI2I使用双编码进行编辑。
创新:大规模数据管道(数十亿对:自然 55%,设计 27%,人 13%,合成 5%;英/中分割)。文本掌握的课程学习。MSRoPE(基于 RoPE)用于 2D 对齐。多任务 T2I/TI2I/I2I。在 GenEval、文本基准上达到 SOTA!
与 GPT-Image-1 相比:匹配照片真实感,压倒双语文本/多行,编辑一致性(在物体/姿势上具有更好的保真度)。这是开源与 API 的边界!
GPU基础设施:估计约24GB VRAM(20B x 1.2,采用BF16)。推理在单个H100上运行顺畅。 我们在Hyperbolic的按需云H100上进行了测试,费用为每小时1.49美元,使用了一个简单的python脚本,该脚本是根据官方模型卡适配的,用于交互式Gradio UI。
阅读我们的完整文章:架构细节、创新、比较、计算分析、完整代码和在 Gradio 上的部署步骤。自己运行 Qwen-Image,并与我们分享您的图像创作! 阅读完整博客: 现在在 Hyperbolic 租用 H100,每小时 $1.49:
阅读我们的完整文章:架构细节、创新、比较、计算分析、完整代码和在 Gradio 上的部署步骤。自己运行 Qwen-Image,并与我们分享您的图像创作! 阅读完整博客: 现在在 Hyperbolic 上以每小时 $1.49 租用 H100s:
6.66K