🚀 Nhóm Qwen của Alibaba đã ra mắt Qwen-Image, một mô hình MMDiT 20B tham số cách mạng hóa việc tạo hình ảnh từ văn bản! Hỗ trợ văn bản trong pixel gốc cho những poster tuyệt đẹp, hỗ trợ song ngữ EN/CN, xuất sắc trong phong cách photorealistic/anime. Khám phá bài viết kỹ thuật của chúng tôi với hướng dẫn đầy đủ để triển khai mô hình trên Hyperbolic & Gradio.
Kiến trúc: Kết hợp MLLM (Qwen2.5-VL 7B cho ngữ nghĩa), VAE (được tinh chỉnh cho tái tạo giàu văn bản), & 20B MMDiT (khớp dòng với ODEs, nối chéo chéo cho khả năng mở rộng). Quy trình: Prompt → đặc trưng → khử nhiễu → giải mã. TI2I với mã hóa kép cho các chỉnh sửa.
Đổi mới: Dòng dữ liệu khổng lồ (hàng tỷ cặp: Tự nhiên 55%, Thiết kế 27%, Con người 13%, Tổng hợp 5%; phân chia EN/CN). Học tập theo chương trình để thành thạo văn bản. MSRoPE (trên RoPE) cho sự căn chỉnh 2D. Đa nhiệm T2I/TI2I/I2I. SOTA trên GenEval, các bài kiểm tra văn bản!
Vs. GPT-Image-1: Đạt được độ chân thực như ảnh, vượt trội trong văn bản song ngữ/đa dòng, nhất quán trong chỉnh sửa (độ trung thực tốt hơn trong các đối tượng/ tư thế). Đây là ranh giới giữa mã nguồn mở và API!
Cơ sở hạ tầng GPU: ~24GB VRAM ước tính (20B x 1.2 trong BF16). Việc suy diễn diễn ra suôn sẻ trên một H100 duy nhất. Chúng tôi đã thử nghiệm trên Cloud H100 theo yêu cầu của Hyperbolic với giá $1.49/giờ, với một đoạn mã python đơn giản được điều chỉnh từ thẻ mô hình chính thức cho một giao diện Gradio tương tác.
Đọc bài viết đầy đủ của chúng tôi: Chi tiết kiến trúc, đổi mới, so sánh, phân tích tính toán, mã HOÀN CHỈNH & các bước triển khai trên Gradio. Chạy Qwen-Image ngay bây giờ và chia sẻ những tác phẩm hình ảnh của bạn với chúng tôi! Đọc blog đầy đủ: Thuê H100s ngay trên Hyperbolic với giá $1.49/giờ:
Đọc bài viết đầy đủ của chúng tôi: Chi tiết kiến trúc, đổi mới, so sánh, phân tích tính toán, mã HOÀN CHỈNH & các bước triển khai trên Gradio. Chạy Qwen-Image ngay bây giờ và chia sẻ những tác phẩm hình ảnh của bạn với chúng tôi! Đọc blog đầy đủ: Thuê H100s ngay trên Hyperbolic với giá $1.49/giờ:
7,46K