Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Представляем Parallax, первый полностью распределенный движок вывода и обслуживания для больших языковых моделей.
Попробуйте сейчас: 🧵
ИИ достигает предела.
Большие языковые модели (LLM) меняют наше мышление, строительство и создание, но их потребность в токенах превышает то, что может предоставить централизованная инфраструктура. Чипы насыщены; Энергетические сети перегружены; Интеллект остается заблокированным за высокозатратными силосами.
Нам нужна новая парадигма.
Parallax переосмысляет вывод моделей как глобальный, совместный процесс, в котором модели больше не привязаны к централизованной инфраструктуре, а вместо этого перерабатываются, выполняются и проверяются по глобальной сети вычислений.
Движок вводит 3 основных изменения:
– Суверенитет интеллекта: используйте модели с аппаратного обеспечения, которому вы доверяете
– Составная инференция: GPU, Apple Silicon, настольные компьютеры работают в гармонии
– Латентные вычисления: активируйтесь в мир неиспользуемых вычислений
Слой выполнения Parallax является основным движком оркестрации для высокопроизводительного серверного обслуживания LLM в распределенных, гетерогенных сетях.
Он обеспечивает оптимизацию серверного уровня — от непрерывной пакетной обработки до постраничного KV-кэша — и является первой MLX-основой платформой, позволяющей проводить профессиональную инференцию на Apple Silicon.
Объединяя графические процессоры NVIDIA и устройства Apple в единую вычислительную структуру, Parallax предоставляет беспрепятственный децентрализованный ИИ для всех.
Parallax работает на распределенной архитектуре, называемой Swarm: динамической сети узлов, которые совместно обслуживают LLM.
Каждый запрос обрабатывается на гетерогенных узлах, каждый из которых обрабатывает сегмент модели.
Результат: децентрализованный, гибкий и проверяемый вывод в реальном времени.
По сравнению с Petals (обслуживание в стиле BitTorrent), Parallax, работающий на Qwen2.5-72B с 2× RTX 5090, достиг:
– 3.1× меньшей задержки от начала до конца, 5.3× более быстрой задержки между токенами
– 2.9× более быстрого времени до первого токена, 3.1× более высокой пропускной способности ввода-вывода
Результаты были последовательными и показали отличную масштабируемость при различных конфигурациях ввода, и это только начало.
Теперь в прямом эфире: чат-бот, полностью работающий на Parallax.
Каждый ответ генерируется в режиме peer-to-peer без участия централизованного сервера.
Испытайте децентрализованное LLM-вычисление:
Стая растет.
Подайте заявку на участие в программе пилотного проекта Edge Host, чтобы масштабировать интеллект мира:
67,97K
Топ
Рейтинг
Избранное