Introductie van Parallax, de eerste volledig gedistribueerde inferentie- en service-engine voor grote taalmodellen. Probeer het nu: 🧵
AI bereikt een bottleneck. LLM's herdefiniëren hoe we denken, bouwen en creëren, maar hun vraag naar tokens overtreft wat gecentraliseerde infrastructuur kan leveren. Chips verzadigd; elektriciteitsnetten onder druk; intelligentie blijft opgesloten achter dure silo's. We hebben een nieuw paradigma nodig.
Parallax herinterpreteert modelinferentie als een wereldwijd, samenwerkend proces, waarbij modellen niet langer zijn gebonden aan gecentraliseerde infrastructuur, maar in plaats daarvan worden gerecomposeerd, uitgevoerd en geverifieerd over een wereldwijd netwerk van rekencapaciteit.
De engine introduceert 3 fundamentele verschuivingen: – Intelligentie-soevereiniteit: modellen bedienen vanaf de hardware die je vertrouwt – Composable inference: GPU's, Apple Silicon, desktops die in harmonie werken – Latente rekencapaciteit: activeren in de onbenutte rekencapaciteit van de wereld
De Parallax Runtime Layer is de kern orchestratie-engine voor hoge doorvoer, server-side LLM-diensten over gedistribueerde, heterogene netwerken. Het biedt server-grade optimalisaties - van continue batching tot gepagineerde KV-cache - en is het eerste MLX-gebaseerde framework dat professionele inferentie op Apple Silicon mogelijk maakt. Door NVIDIA GPU's en Apple-apparaten te verenigen in een enkele rekenfabric, brengt Parallax moeiteloze gedecentraliseerde AI naar iedereen.
Parallax draait op een gedistribueerde architectuur genaamd de Swarm: een dynamisch netwerk van knooppunten die samen LLM's bedienen. Elke prompt wordt verwerkt over heterogene knooppunten, waarbij elk een segment van het model behandelt. Het resultaat: realtime inferentie die gedecentraliseerd, vloeiend en verifieerbaar is.
In vergelijking met Petals (BitTorrent-stijl serveren), behaalde Parallax met Qwen2.5-72B op 2× RTX 5090's: – 3,1× lagere end-to-end latentie, 5,3× snellere inter-token latentie – 2,9× snellere tijd tot de eerste token, 3,1× hogere I/O doorvoer De resultaten waren consistent en toonden een geweldige schaalbaarheid over verschillende invoerconfiguraties, en dit is nog maar het begin.
Nu live: een chatbot volledig aangedreven door Parallax. Elke reactie wordt peer-to-peer gegenereerd zonder dat er een gecentraliseerde server bij betrokken is. Ervaar gedecentraliseerde LLM-inferentie:
De zwerm groeit. Vraag om deel te nemen aan het Edge Host Pilot Programma om de intelligentie van de wereld te schalen:
67,97K