Parallax のパフォーマンスの背後にある秘密は、主要なサーバー グレードの最適化にあります。 – 継続的なバッチ処理: リクエストを動的にグループ化して、ハードウェアの使用率とスループットを最大化します。 – ページング KV キャッシュ: ブロックベースの設計により、メモリの断片化を防ぎ、数千の同時リクエストを処理します。 – 異種ワーカー: GPU と Mac 全体で最適なパフォーマンス。 速い。頼もしい。完全に分散されています。
Gradient
Gradient2025年6月20日
Petals(BitTorrentスタイルのサービング)と比較して、2× RTX 5090sでQwen2.5-72Bを実行したParallaxは、次の成果を達成しました。 – 3.1× 低いエンドツーエンドのレイテンシ、5.3× 速いトークン間レイテンシ – 最初のトークンまでの時間が 2.9× 短縮され、I/O スループットが 3.1× 向上 結果は一貫しており、さまざまな入力構成間で優れたスケーラビリティが示されましたが、これはほんの始まりにすぎません。
66.33K