Представляем Parallax, первый полностью распределенный движок вывода и обслуживания для больших языковых моделей. Попробуйте сейчас: 🧵
ИИ достигает предела. Большие языковые модели (LLM) меняют наше мышление, строительство и создание, но их потребность в токенах превышает то, что может предоставить централизованная инфраструктура. Чипы насыщены; Энергетические сети перегружены; Интеллект остается заблокированным за высокозатратными силосами. Нам нужна новая парадигма.
Parallax переосмысляет вывод моделей как глобальный, совместный процесс, в котором модели больше не привязаны к централизованной инфраструктуре, а вместо этого перерабатываются, выполняются и проверяются по глобальной сети вычислений.
Движок вводит 3 основных изменения: – Суверенитет интеллекта: используйте модели с аппаратного обеспечения, которому вы доверяете – Составная инференция: GPU, Apple Silicon, настольные компьютеры работают в гармонии – Латентные вычисления: активируйтесь в мир неиспользуемых вычислений
Слой выполнения Parallax является основным движком оркестрации для высокопроизводительного серверного обслуживания LLM в распределенных, гетерогенных сетях. Он обеспечивает оптимизацию серверного уровня — от непрерывной пакетной обработки до постраничного KV-кэша — и является первой MLX-основой платформой, позволяющей проводить профессиональную инференцию на Apple Silicon. Объединяя графические процессоры NVIDIA и устройства Apple в единую вычислительную структуру, Parallax предоставляет беспрепятственный децентрализованный ИИ для всех.
Parallax работает на распределенной архитектуре, называемой Swarm: динамической сети узлов, которые совместно обслуживают LLM. Каждый запрос обрабатывается на гетерогенных узлах, каждый из которых обрабатывает сегмент модели. Результат: децентрализованный, гибкий и проверяемый вывод в реальном времени.
По сравнению с Petals (обслуживание в стиле BitTorrent), Parallax, работающий на Qwen2.5-72B с 2× RTX 5090, достиг: – 3.1× меньшей задержки от начала до конца, 5.3× более быстрой задержки между токенами – 2.9× более быстрого времени до первого токена, 3.1× более высокой пропускной способности ввода-вывода Результаты были последовательными и показали отличную масштабируемость при различных конфигурациях ввода, и это только начало.
Теперь в прямом эфире: чат-бот, полностью работающий на Parallax. Каждый ответ генерируется в режиме peer-to-peer без участия централизованного сервера. Испытайте децентрализованное LLM-вычисление:
Стая растет. Подайте заявку на участие в программе пилотного проекта Edge Host, чтобы масштабировать интеллект мира:
67,97K