Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

🚀 Команда Qwen компании Alibaba выпустила Qwen-Image, модель MMDiT с 20 миллиардами параметров, революционизирующую генерацию изображений из текста! Нативная рендеринг текста в пикселях для потрясающих постеров, поддержка двух языков EN/CN, превосходно справляется с фотореалистичными/аниме/стилями. Погрузитесь в нашу техническую статью с полным руководством по развертыванию модели на Hyperbolic и Gradio.

Архитектура: сочетает MLLM (Qwen2.5-VL 7B для семантики), VAE (доработанный для текстово-насыщенной реконструкции) и 20B MMDiT (сопоставление потоков с ODE, диагональное объединение для масштабируемого разрешения). Процесс: Подсказка → признаки → денойзинг → декодирование. TI2I с двойным кодированием для редактирования.

Инновации: Огромный поток данных (миллиарды пар: Природа 55%, Дизайн 27%, Люди 13%, Синтетика 5%; разделение EN/CN). Обучение по учебной программе для овладения текстом. MSRoPE (на RoPE) для 2D выравнивания. Мультизадачность T2I/TI2I/I2I. SOTA на GenEval, текстовых бенчмарках!

Против GPT-Image-1: Соответствует фотореализму, превосходит двуязычный текст/многострочный, консистентность редактирования (лучшее качество объектов/поз). Это край между открытым исходным кодом и API!

Инфраструктура GPU: ~24 ГБ VRAM (20B x 1.2 в BF16). Инференция проходит гладко на одном H100. Мы тестировали на облаке Hyperbolic On-Demand H100 за $1.49/час, с простым скриптом на Python, адаптированным из официальной карточки модели для интерактивного интерфейса Gradio.

Прочитайте нашу полную статью: детали архитектуры, инновации, сравнение, анализ вычислений, ПОЛНЫЙ код и шаги развертывания на Gradio. Запустите Qwen-Image сами и поделитесь своими изображениями с нами! Читать полный блог: Арендуйте H100s сейчас на Hyperbolic за $1.49/час:

7,49K

Топ

Рейтинг

Избранное

В тренде ончейн

В тренде в Х

Самые инвестируемые

Наиболее известные