Sekret wydajności Parallaxa tkwi w kluczowych optymalizacjach serwerowych: – Ciągłe grupowanie: dynamicznie grupuje żądania, aby maksymalizować wykorzystanie sprzętu i przepustowość. – Paged KV-Cache: blokowa konstrukcja zapobiega fragmentacji pamięci, obsługuje tysiące równoczesnych żądań. – Heterogeniczni pracownicy: optymalna wydajność na GPU i Macach. Szybko. Niezawodnie. W pełni rozproszone.
Gradient
Gradient20 cze 2025
W porównaniu do Petali (serwowanie w stylu BitTorrent), Parallax działający na Qwen2.5-72B na 2× RTX 5090 osiągnął: – 3,1× niższe opóźnienie end-to-end, 5,3× szybsze opóźnienie między tokenami – 2,9× szybszy czas do pierwszego tokena, 3,1× wyższy przepustowość I/O Wyniki były spójne i wykazały dużą skalowalność w różnych konfiguracjach wejściowych, a to dopiero początek.
66,34K