Parallax 表現背後的秘密在於關鍵的伺服器級優化: – 持續批次處理:動態分組請求以最大化硬體利用率和吞吐量。 – 分頁 KV-快取:基於區塊的設計防止記憶體碎片化,處理數千個並發請求。 – 異構工作者:在 GPU 和 Mac 上實現最佳性能。 快速。可靠。完全分散式。
Gradient
Gradient2025年6月20日
與 Petals(BitTorrent 風格的服務)相比,在 2× RTX 5090 上運行 Qwen2.5-72B 的 Parallax 實現了: – 端到端延遲降低 3.1×,令牌間延遲提高 5.3× – 第一個令牌的時間加快 2.9×,I/O 輸送量提高 3.1× 結果是一致的,並且在不同的輸入配置中顯示出很好的可擴充性,而這僅僅是個開始。
66.35K