Le secret des performances de Parallax réside dans des optimisations clés de niveau serveur : – Traitement par lots continu : regroupe dynamiquement les demandes pour maximiser l’utilisation du matériel et le débit. – Paged KV-Cache : la conception basée sur les blocs empêche la fragmentation de la mémoire, gère des milliers de requêtes simultanées – Workers hétérogènes : performances optimales sur les GPU et les Mac. Rapide. Fiable. Entièrement distribué.
Gradient
Gradient20 juin 2025
Par rapport à Petals (service de style BitTorrent), Parallax exécutant Qwen2.5-72B sur 2× RTX 5090 a obtenu : – 3,1 × latence de bout en bout plus faible, 5,3 × latence inter-token plus rapide – Délai de premier jeton 2,9 × plus rapide, débit d’E/S supérieur de 3,1 × Les résultats ont été cohérents et ont montré une grande évolutivité dans différentes configurations d’entrée, et ce n’est que le début.
66,34K