Il segreto dietro le prestazioni di Parallax risiede in ottimizzazioni chiave di livello server: – Batch continuo: raggruppa dinamicamente le richieste per massimizzare l'utilizzo dell'hardware e il throughput. – KV-Cache paginato: il design basato su blocchi previene la frammentazione della memoria e gestisce migliaia di richieste concorrenti. – Lavoratori eterogenei: prestazioni ottimali su GPU e Mac. Veloce. Affidabile. Completamente distribuito.
Gradient
Gradient20 giu 2025
Rispetto a Petals (servizio in stile BitTorrent), Parallax che esegue Qwen2.5-72B su 2× RTX 5090 ha raggiunto: – 3,1× minore latenza end-to-end, 5,3× più veloce latenza inter-token – 2,9× più veloce tempo per il primo token, 3,1× maggiore throughput I/O I risultati sono stati coerenti e hanno mostrato una grande scalabilità attraverso diverse configurazioni di input, e questo è solo l'inizio.
66,33K