Hemligheten bakom Parallax prestanda ligger i viktiga optimeringar i serverklass: – Kontinuerlig batchning: grupperar förfrågningar dynamiskt för att maximera hårdvaruanvändning och genomströmning. – Paged KV-Cache: blockbaserad design förhindrar minnesfragmentering, hanterar tusentals samtidiga förfrågningar – Heterogena arbetare: optimal prestanda över GPU:er och Mac-datorer. Snabb. Pålitlig. Fullt distribuerad.
Gradient
Gradient20 juni 2025
Jämfört med Petals (BitTorrent-stil) uppnådde Parallax som körde Qwen2.5-72B på 2× RTX 5090s: – 3,1× lägre latens från ände till ände, 5,3× snabbare inter-token latens – 2,9 × snabbare time-to-first-token, 3,1× högre I/O-genomströmning Resultaten var konsekventa och visade stor skalbarhet över olika indatakonfigurationer, och det här är bara början.
66,36K