一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

🚀 阿里巴巴的 Qwen 团队发布了 Qwen-Image，这是一款拥有 200 亿参数的 MMDiT 模型，彻底改变了文本到图像的生成！原生像素内文本渲染，适合制作惊艳的海报，支持双语 EN/CN，擅长于逼真的/动漫风格。深入阅读我们的技术文章，获取在 Hyperbolic 和 Gradio 上部署该模型的完整指南。

架构：结合了MLLM（Qwen2.5-VL 7B用于语义）、VAE（针对文本丰富重建进行微调）和20B MMDiT（使用ODE的流匹配，采用对角拼接以实现可扩展的分辨率）。过程：提示 → 特征 → 去噪 → 解码。TI2I使用双编码进行编辑。

创新：大规模数据管道（数十亿对：自然 55%，设计 27%，人 13%，合成 5%；英/中分割）。文本掌握的课程学习。MSRoPE（基于 RoPE）用于 2D 对齐。多任务 T2I/TI2I/I2I。在 GenEval、文本基准上达到 SOTA！

与 GPT-Image-1 相比：匹配照片真实感，压倒双语文本/多行，编辑一致性（在物体/姿势上具有更好的保真度）。这是开源与 API 的边界！

GPU基础设施：估计约24GB VRAM（20B x 1.2，采用BF16）。推理在单个H100上运行顺畅。我们在Hyperbolic的按需云H100上进行了测试，费用为每小时1.49美元，使用了一个简单的python脚本，该脚本是根据官方模型卡适配的，用于交互式Gradio UI。

阅读我们的完整文章：架构细节、创新、比较、计算分析、完整代码和在 Gradio 上的部署步骤。自己运行 Qwen-Image，并与我们分享您的图像创作！阅读完整博客：现在在 Hyperbolic 租用 H100，每小时 $1.49：

阅读我们的完整文章：架构细节、创新、比较、计算分析、完整代码和在 Gradio 上的部署步骤。自己运行 Qwen-Image，并与我们分享您的图像创作！阅读完整博客：现在在 Hyperbolic 上以每小时 $1.49 租用 H100s：

6.66K