Tajemství výkonu Parallaxu spočívá v klíčových optimalizacích na serverové úrovni: – Kontinuální dávkování: dynamicky seskupuje požadavky za účelem maximalizace využití hardwaru a propustnosti. – Paged KV-Cache: blokový design zabraňuje fragmentaci paměti, zpracovává tisíce souběžných požadavků – Heterogenní pracovníci: optimální výkon napříč GPU a Macy. Rychlý. Spolehlivý. Plně rozložené.
Gradient
Gradient20. 6. 2025
Ve srovnání s Petals (podávání ve stylu BitTorrent) Parallax běžící na Qwen2.5-72B na 2× RTX 5090s dosáhl: – 3,1 × nižší latence mezi koncovými body, 5,3 × rychlejší latence mezi tokeny – 2,9 × rychlejší doba do prvního tokenu, 3,1 × vyšší propustnost I/O Výsledky byly konzistentní a ukázaly skvělou škálovatelnost napříč různými vstupními konfiguracemi, a to je jen začátek.
66,31K