Hemmeligheten bak Parallax sin ytelse ligger i viktige optimaliseringer av serverkvalitet: – Kontinuerlig batching: grupperer forespørsler dynamisk for å maksimere maskinvareutnyttelse og gjennomstrømning. – Paged KV-Cache: blokkbasert design forhindrer minnefragmentering, håndterer tusenvis av samtidige forespørsler – Heterogene arbeidere: optimal ytelse på tvers av GPUer og Mac-er. Hurtig. Pålitelig. Fullt distribuert.
Gradient
Gradient20. juni 2025
Sammenlignet med kronblader (servering i BitTorrent-stil), oppnådde Parallax som kjører Qwen2.5-72B på 2× RTX 5090s: – 3,1× lavere ende-til-ende-ventetid, 5,3× raskere inter-token-ventetid – 2,9 × raskere tid til første token, 3,1 × høyere I/O-gjennomstrømning Resultatene var konsistente og viste stor skalerbarhet på tvers av ulike inngangskonfigurasjoner, og dette er bare begynnelsen.
66,35K