Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Представляємо Parallax, перший повністю розподілений механізм висновків і обслуговування для великих мовних моделей. Спробуйте зараз: 🧵

Штучний інтелект досягає вузького місця. LLM змінюють те, як ми думаємо, будуємо та творимо, але їхній попит на токени випереджає те, що може забезпечити централізована інфраструктура. Чіпси насичені; Електромережі напружені; Розвідка залишається замкненою за дорогими бункерами. Нам потрібна нова парадигма.

Parallax переосмислює висновування моделей як глобальний спільний процес, де моделі більше не прив'язані до централізованої інфраструктури, а натомість перекомпонуються, виконуються та перевіряються в глобальній сітці обчислень.

Двигун вводить 3 основні зміни: – Суверенітет розвідки: подавайте моделі з обладнання, якому ви довіряєте – Композиційний висновок: графічні процесори, Apple Silicon, настільні комп'ютери, що працюють злагоджено – Латентні обчислення: активуйте у світі невикористані обчислення

Parallax Runtime Layer є основним механізмом оркестрації для високопродуктивних серверних LLM, які обслуговуються в розподілених, гетерогенних мережах. Він забезпечує оптимізацію серверного рівня — від безперервного пакетування до сторінкового кешу KV — і є першим фреймворком на основі MLX, який забезпечує висновування професійного рівня на Apple Silicon. Об'єднуючи графічні процесори NVIDIA та пристрої Apple в єдину обчислювальну тканину, Parallax надає безперешкодний децентралізований штучний інтелект для всіх.

Parallax працює на розподіленій архітектурі під назвою Swarm: динамічній мережі вузлів, які спільно обслуговують LLM. Кожен запит обробляється між різнорідними вузлами, при цьому кожен обробляє сегмент моделі. Результат: висновок у режимі реального часу, який є децентралізованим, плавним і таким, що піддається перевірці.

У порівнянні з Petals (подача в стилі BitTorrent), Parallax під управлінням Qwen2.5-72B на 2× RTX 5090s досяг: – 3,1× нижча наскрізна затримка, 5,3× швидша затримка між токенами – 2,9× швидший час до першого токена, 3,1× вища пропускна здатність вводу/виводу Результати були стабільними та продемонстрували чудову масштабованість у різних конфігураціях вводу, і це лише початок.

Тепер у прямому ефірі: чат-бот на базі Parallax. Кожна відповідь генерується одноранговим способом без участі централізованого сервера. Досвід децентралізованого висновування LLM:

Рій зростає. Подайте заявку на приєднання до пілотної програми Edge Host для масштабування світового інтелекту:

67,96K

Найкращі

Рейтинг

Вибране

Актуальне ончейн

Популярні в X

Нещодавнє найкраще фінансування

Найбільш варте уваги