El secreto detrás del rendimiento de Parallax radica en las optimizaciones clave de nivel de servidor: – Procesamiento continuo por lotes: agrupa dinámicamente las solicitudes para maximizar la utilización y el rendimiento del hardware. – KV-Cache paginado: el diseño basado en bloques evita la fragmentación de la memoria, maneja miles de solicitudes simultáneas – Trabajadores heterogéneos: rendimiento óptimo en GPU y Mac. Rápido. Fidedigno. Totalmente distribuido.
Gradient
Gradient20 jun 2025
En comparación con Petals (servicio al estilo BitTorrent), Parallax que ejecuta Qwen2.5-72B en 2× RTX 5090 logró: – 3,1× menor latencia de extremo a extremo, 5,3× latencia entre tokens más rápida – Tiempo hasta el primer token un 2,9× más rápido, un rendimiento de E/S un 3,1× más alto Los resultados fueron consistentes y mostraron una gran escalabilidad en diferentes configuraciones de entrada, y esto es solo el comienzo.
66.33K