熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
🚀 阿里巴巴的 Qwen 團隊推出了 Qwen-Image,一個擁有 20B 參數的 MMDiT 模型,徹底改變了文本到圖像的生成!原生像素內文本渲染,適合驚人的海報,支持雙語英語/中文,擅長於照片寫實/動漫/風格。深入了解我們的技術文章,獲取在 Hyperbolic 和 Gradio 上部署模型的完整指南。

架構:結合 MLLM (Qwen2.5-VL 7B 用於語義)、VAE (針對文本豐富重建進行微調) 和 20B MMDiT (使用 ODE 進行流匹配,對角連接以實現可擴展的重建)。
過程:提示 → 特徵 → 去噪 → 解碼。TI2I 使用雙編碼進行編輯。

創新:龐大的數據管道(數十億對:自然 55%,設計 27%,人員 13%,合成 5%;英/中分割)。課程學習以掌握文本。MSRoPE(基於 RoPE)用於 2D 對齊。多任務 T2I/TI2I/I2I。在 GenEval、文本基準上達到 SOTA!

Vs. GPT-Image-1:匹配照片真實感,壓倒雙語文本/多行,編輯一致性(物體/姿勢的保真度更好)。這是開源與API的邊界!

GPU 基礎設施:估計約 24GB VRAM(20B x 1.2 以 BF16 計算)。推理在單個 H100 上運行順暢。
我們在 Hyperbolic 的按需雲 H100 上進行測試,費用為每小時 $1.49,使用從官方模型卡適配的簡單 Python 腳本來實現互動式 Gradio UI。

閱讀我們的完整文章:架構細節、創新、比較、計算分析、完整的代碼和在 Gradio 上的部署步驟。自己運行 Qwen-Image,並與我們分享您的圖像創作!
閱讀完整的部落格:
現在在 Hyperbolic 租用 H100,每小時 $1.49:
閱讀我們的完整文章:架構細節、創新、比較、計算分析、完整的代碼和在 Gradio 上的部署步驟。自己運行 Qwen-Image,並與我們分享你的圖像創作!
閱讀完整的部落格:
現在在 Hyperbolic 上以每小時 $1.49 租用 H100s:
6.65K
熱門
排行
收藏