Představujeme Parallax, první plně distribuovaný inferenční a obslužný engine pro velké jazykové modely. Vyzkoušejte to nyní: 🧵
Umělá inteligence naráží na úzké hrdlo. LLM přetvářejí způsob, jakým myslíme, budujeme a tvoříme, ale jejich poptávka po tokenech převyšuje to, co může poskytnout centralizovaná infrastruktura. Třísky nasycené; Elektrické sítě jsou napjaté; Inteligence zůstává uzamčena za sily s vysokými náklady. Potřebujeme nové paradigma.
Parallax přetváří odvozování modelů jako globální proces spolupráce, kde modely již nejsou zřetězeny s centralizovanou infrastrukturou, ale místo toho jsou znovu složeny, prováděny a ověřovány v rámci globální sítě výpočetních prostředků.
Motor zavádí 3 základní řazení: – Zpravodajská suverenita: poskytujte modely z hardwaru, kterému důvěřujete – Skládatelná inference: GPU, Apple Silicon, stolní počítače pracující v harmonii – Latentní výpočetní prostředky: aktivujte se do nevyužitého výpočetního prostředí světa
Parallax Runtime Layer je jádrem orchestračního enginu pro vysoce propustné LLM na straně serveru, které slouží napříč distribuovanými, heterogenními sítěmi. Poskytuje optimalizace na serverové úrovni – od kontinuálního dávkování až po stránkovanou mezipaměť KV – a je prvním frameworkem založeným na MLX, který umožňuje inferenci na profesionální úrovni na Apple Silicon. Sjednocením grafických procesorů NVIDIA a zařízení Apple do jediné výpočetní struktury přináší Parallax bezproblémovou decentralizovanou umělou inteligenci všem.
Parallax běží na distribuované architektuře zvané Swarm: dynamická síť uzlů, které společně obsluhují LLM. Každá výzva je zpracována napříč heterogenními uzly, přičemž každý z nich zpracovává segment modelu. Výsledek: inference v reálném čase, která je decentralizovaná, plynulá a ověřitelná.
Ve srovnání s Petals (podávání ve stylu BitTorrent) Parallax běžící na Qwen2.5-72B na 2× RTX 5090s dosáhl: – 3,1 × nižší latence mezi koncovými body, 5,3 × rychlejší latence mezi tokeny – 2,9 × rychlejší doba do prvního tokenu, 3,1 × vyšší propustnost I/O Výsledky byly konzistentní a ukázaly skvělou škálovatelnost napříč různými vstupními konfiguracemi, a to je jen začátek.
Nyní živě: chatbot plně poháněný Parallaxem. Každá odpověď je generována peer-to-peer bez zapojení centralizovaného serveru. Zažijte decentralizovanou inferenci LLM:
Roj se rozrůstá. Přihlaste se do pilotního programu Edge Host a rozšiřte světovou inteligenci:
67,93K