Presentiamo Parallax, il primo motore di inferenza e servizio completamente distribuito per modelli di linguaggio di grandi dimensioni. Provalo ora: 🧵
L'IA sta raggiungendo un collo di bottiglia. I LLM stanno rimodellando il nostro modo di pensare, costruire e creare, ma la loro domanda di token sta superando ciò che l'infrastruttura centralizzata può offrire. Chip saturi; Reti elettriche sotto pressione; L'intelligenza rimane bloccata dietro silos ad alto costo. Abbiamo bisogno di un nuovo paradigma.
Parallax reimmagina l'inferenza dei modelli come un processo globale e collaborativo, in cui i modelli non sono più legati a un'infrastruttura centralizzata, ma vengono invece ricomposti, eseguiti e verificati attraverso una rete globale di calcolo.
Il motore introduce 3 cambiamenti fondamentali: – Sovranità dell'intelligenza: utilizza modelli dall'hardware di cui ti fidi – Inferenza componibile: GPU, Apple Silicon, desktop che lavorano in armonia – Calcolo latente: attivare nel calcolo non sfruttato del mondo
Il Parallax Runtime Layer è il motore di orchestrazione centrale per l'erogazione di LLM ad alta capacità, lato server, attraverso reti distribuite e eterogenee. Offre ottimizzazioni di livello server—dalla batch continua alla cache KV paginata—ed è il primo framework basato su MLX a consentire inferenze di livello professionale su Apple Silicon. Unificando le GPU NVIDIA e i dispositivi Apple in un'unica infrastruttura di calcolo, Parallax porta l'IA decentralizzata senza attriti a tutti.
Parallax runs on a distributed architecture called the Swarm: a dynamic network of nodes that collaboratively serve LLMs. Each prompt is processed across heterogeneous nodes, with each handling a segment of the model. The result: real-time inference that is decentralized, fluid, and verifiable.
Rispetto a Petals (servizio in stile BitTorrent), Parallax che esegue Qwen2.5-72B su 2× RTX 5090 ha raggiunto: – 3,1× minore latenza end-to-end, 5,3× più veloce latenza inter-token – 2,9× più veloce tempo per il primo token, 3,1× maggiore throughput I/O I risultati sono stati coerenti e hanno mostrato una grande scalabilità attraverso diverse configurazioni di input, e questo è solo l'inizio.
Ora in diretta: un chatbot completamente alimentato da Parallax. Ogni risposta è generata peer-to-peer senza server centralizzati coinvolti. Sperimenta l'inferenza LLM decentralizzata:
Il gruppo sta crescendo. Candidati per unirti al Programma Pilota Edge Host per scalare l'intelligenza del mondo:
67,96K