Представляємо Parallax, перший повністю розподілений механізм висновків і обслуговування для великих мовних моделей. Спробуйте зараз: 🧵
Штучний інтелект досягає вузького місця. LLM змінюють те, як ми думаємо, будуємо та творимо, але їхній попит на токени випереджає те, що може забезпечити централізована інфраструктура. Чіпси насичені; Електромережі напружені; Розвідка залишається замкненою за дорогими бункерами. Нам потрібна нова парадигма.
Parallax переосмислює висновування моделей як глобальний спільний процес, де моделі більше не прив'язані до централізованої інфраструктури, а натомість перекомпонуються, виконуються та перевіряються в глобальній сітці обчислень.
Двигун вводить 3 основні зміни: – Суверенітет розвідки: подавайте моделі з обладнання, якому ви довіряєте – Композиційний висновок: графічні процесори, Apple Silicon, настільні комп'ютери, що працюють злагоджено – Латентні обчислення: активуйте у світі невикористані обчислення
Parallax Runtime Layer є основним механізмом оркестрації для високопродуктивних серверних LLM, які обслуговуються в розподілених, гетерогенних мережах. Він забезпечує оптимізацію серверного рівня — від безперервного пакетування до сторінкового кешу KV — і є першим фреймворком на основі MLX, який забезпечує висновування професійного рівня на Apple Silicon. Об'єднуючи графічні процесори NVIDIA та пристрої Apple в єдину обчислювальну тканину, Parallax надає безперешкодний децентралізований штучний інтелект для всіх.
Parallax працює на розподіленій архітектурі під назвою Swarm: динамічній мережі вузлів, які спільно обслуговують LLM. Кожен запит обробляється між різнорідними вузлами, при цьому кожен обробляє сегмент моделі. Результат: висновок у режимі реального часу, який є децентралізованим, плавним і таким, що піддається перевірці.
У порівнянні з Petals (подача в стилі BitTorrent), Parallax під управлінням Qwen2.5-72B на 2× RTX 5090s досяг: – 3,1× нижча наскрізна затримка, 5,3× швидша затримка між токенами – 2,9× швидший час до першого токена, 3,1× вища пропускна здатність вводу/виводу Результати були стабільними та продемонстрували чудову масштабованість у різних конфігураціях вводу, і це лише початок.
Тепер у прямому ефірі: чат-бот на базі Parallax. Кожна відповідь генерується одноранговим способом без участі централізованого сервера. Досвід децентралізованого висновування LLM:
Рій зростає. Подайте заявку на приєднання до пілотної програми Edge Host для масштабування світового інтелекту:
67,96K