Das Geheimnis hinter der Leistung von Parallax liegt in wichtigen serverseitigen Optimierungen: – Kontinuierliches Batching: gruppiert Anfragen dynamisch, um die Hardwareauslastung und den Durchsatz zu maximieren. – Paged KV-Cache: blockbasiertes Design verhindert Speicherfragmentierung und verarbeitet Tausende gleichzeitiger Anfragen. – Heterogene Arbeiter: optimale Leistung über GPUs und Macs hinweg. Schnell. Zuverlässig. Vollständig verteilt.
Gradient
Gradient20. Juni 2025
Im Vergleich zu Petals (BitTorrent-ähnliches Serving) erzielte Parallax, das Qwen2.5-72B auf 2× RTX 5090s ausführt: – 3,1× niedrigere End-to-End-Latenz, 5,3× schnellere Inter-Token-Latenz – 2,9× schnellere Zeit bis zum ersten Token, 3,1× höherer I/O-Durchsatz Die Ergebnisse waren konsistent und zeigten eine großartige Skalierbarkeit über verschiedene Eingabekonfigurationen hinweg, und das ist erst der Anfang.
66,35K