Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Представляємо Parallax, перший повністю розподілений механізм висновків і обслуговування для великих мовних моделей.
Спробуйте зараз: 🧵
Штучний інтелект досягає вузького місця.
LLM змінюють те, як ми думаємо, будуємо та творимо, але їхній попит на токени випереджає те, що може забезпечити централізована інфраструктура. Чіпси насичені; Електромережі напружені; Розвідка залишається замкненою за дорогими бункерами.
Нам потрібна нова парадигма.
Parallax переосмислює висновування моделей як глобальний спільний процес, де моделі більше не прив'язані до централізованої інфраструктури, а натомість перекомпонуються, виконуються та перевіряються в глобальній сітці обчислень.
Двигун вводить 3 основні зміни:
– Суверенітет розвідки: подавайте моделі з обладнання, якому ви довіряєте
– Композиційний висновок: графічні процесори, Apple Silicon, настільні комп'ютери, що працюють злагоджено
– Латентні обчислення: активуйте у світі невикористані обчислення
Parallax Runtime Layer є основним механізмом оркестрації для високопродуктивних серверних LLM, які обслуговуються в розподілених, гетерогенних мережах.
Він забезпечує оптимізацію серверного рівня — від безперервного пакетування до сторінкового кешу KV — і є першим фреймворком на основі MLX, який забезпечує висновування професійного рівня на Apple Silicon.
Об'єднуючи графічні процесори NVIDIA та пристрої Apple в єдину обчислювальну тканину, Parallax надає безперешкодний децентралізований штучний інтелект для всіх.
Parallax працює на розподіленій архітектурі під назвою Swarm: динамічній мережі вузлів, які спільно обслуговують LLM.
Кожен запит обробляється між різнорідними вузлами, при цьому кожен обробляє сегмент моделі.
Результат: висновок у режимі реального часу, який є децентралізованим, плавним і таким, що піддається перевірці.
У порівнянні з Petals (подача в стилі BitTorrent), Parallax під управлінням Qwen2.5-72B на 2× RTX 5090s досяг:
– 3,1× нижча наскрізна затримка, 5,3× швидша затримка між токенами
– 2,9× швидший час до першого токена, 3,1× вища пропускна здатність вводу/виводу
Результати були стабільними та продемонстрували чудову масштабованість у різних конфігураціях вводу, і це лише початок.
Тепер у прямому ефірі: чат-бот на базі Parallax.
Кожна відповідь генерується одноранговим способом без участі централізованого сервера.
Досвід децентралізованого висновування LLM:
Рій зростає.
Подайте заявку на приєднання до пілотної програми Edge Host для масштабування світового інтелекту:
67,96K
Найкращі
Рейтинг
Вибране