Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Presentiamo Parallax, il primo motore di inferenza e servizio completamente distribuito per modelli di linguaggio di grandi dimensioni.
Provalo ora: 🧵
L'IA sta raggiungendo un collo di bottiglia.
I LLM stanno rimodellando il nostro modo di pensare, costruire e creare, ma la loro domanda di token sta superando ciò che l'infrastruttura centralizzata può offrire. Chip saturi; Reti elettriche sotto pressione; L'intelligenza rimane bloccata dietro silos ad alto costo.
Abbiamo bisogno di un nuovo paradigma.
Parallax reimmagina l'inferenza dei modelli come un processo globale e collaborativo, in cui i modelli non sono più legati a un'infrastruttura centralizzata, ma vengono invece ricomposti, eseguiti e verificati attraverso una rete globale di calcolo.
Il motore introduce 3 cambiamenti fondamentali:
– Sovranità dell'intelligenza: utilizza modelli dall'hardware di cui ti fidi
– Inferenza componibile: GPU, Apple Silicon, desktop che lavorano in armonia
– Calcolo latente: attivare nel calcolo non sfruttato del mondo
Il Parallax Runtime Layer è il motore di orchestrazione centrale per l'erogazione di LLM ad alta capacità, lato server, attraverso reti distribuite e eterogenee.
Offre ottimizzazioni di livello server—dalla batch continua alla cache KV paginata—ed è il primo framework basato su MLX a consentire inferenze di livello professionale su Apple Silicon.
Unificando le GPU NVIDIA e i dispositivi Apple in un'unica infrastruttura di calcolo, Parallax porta l'IA decentralizzata senza attriti a tutti.
Parallax runs on a distributed architecture called the Swarm: a dynamic network of nodes that collaboratively serve LLMs.
Each prompt is processed across heterogeneous nodes, with each handling a segment of the model.
The result: real-time inference that is decentralized, fluid, and verifiable.
Rispetto a Petals (servizio in stile BitTorrent), Parallax che esegue Qwen2.5-72B su 2× RTX 5090 ha raggiunto:
– 3,1× minore latenza end-to-end, 5,3× più veloce latenza inter-token
– 2,9× più veloce tempo per il primo token, 3,1× maggiore throughput I/O
I risultati sono stati coerenti e hanno mostrato una grande scalabilità attraverso diverse configurazioni di input, e questo è solo l'inizio.
Ora in diretta: un chatbot completamente alimentato da Parallax.
Ogni risposta è generata peer-to-peer senza server centralizzati coinvolti.
Sperimenta l'inferenza LLM decentralizzata:
Il gruppo sta crescendo.
Candidati per unirti al Programma Pilota Edge Host per scalare l'intelligenza del mondo:
67,96K
Principali
Ranking
Preferiti