Het geheim achter de prestaties van Parallax ligt in belangrijke server-grade optimalisaties: – Continue batching: groepeert aanvragen dynamisch om hardwarebenutting en doorvoer te maximaliseren. – Paged KV-Cache: blokgebaseerd ontwerp voorkomt geheugenfragmentatie, verwerkt duizenden gelijktijdige aanvragen. – Heterogene werkers: optimale prestaties op GPU's en Macs. Snel. Betrouwbaar. Volledig gedistribueerd.
Gradient
Gradient20 jun 2025
In vergelijking met Petals (BitTorrent-stijl serveren), behaalde Parallax met Qwen2.5-72B op 2× RTX 5090's: – 3,1× lagere end-to-end latentie, 5,3× snellere inter-token latentie – 2,9× snellere tijd tot de eerste token, 3,1× hogere I/O doorvoer De resultaten waren consistent en toonden een geweldige schaalbaarheid over verschillende invoerconfiguraties, en dit is nog maar het begin.
66,34K