Secretul din spatele performanței Parallax constă în optimizările cheie la nivel de server: – Batch continuu: grupează dinamic cererile pentru a maximiza utilizarea hardware-ului și randamentul. – Paged KV-Cache: designul bazat pe blocuri previne fragmentarea memoriei, gestionează mii de cereri simultane – Lucrători eterogene: performanță optimă pe GPU-uri și Mac-uri. Repede. Fiabil. Complet distribuit.
Gradient
Gradient20 iun. 2025
În comparație cu Petals (servire în stil BitTorrent), Parallax care rulează Qwen2.5-72B pe 2× RTX 5090 a obținut: – 3,1× latență end-to-end mai mică, 5,3× latență inter-token mai rapidă – 2,9× timp mai rapid până la primul token, 3,1× debit I/O mai mare Rezultatele au fost consistente și au arătat o scalabilitate excelentă în diferite configurații de intrare, iar acesta este doar începutul.
66,34K