El secreto detrás del rendimiento de Parallax radica en optimizaciones clave de nivel servidor: – Agrupación continua: agrupa dinámicamente las solicitudes para maximizar la utilización del hardware y el rendimiento. – KV-Cache paginado: diseño basado en bloques que previene la fragmentación de la memoria, maneja miles de solicitudes concurrentes. – Trabajadores heterogéneos: rendimiento óptimo en GPUs y Macs. Rápido. Fiable. Totalmente distribuido.
Gradient
Gradient20 jun 2025
En comparación con Petals (servicio estilo BitTorrent), Parallax ejecutando Qwen2.5-72B en 2× RTX 5090s logró: – 3.1× menor latencia de extremo a extremo, 5.3× más rápida latencia inter-token – 2.9× más rápido tiempo hasta el primer token, 3.1× mayor rendimiento de I/O Los resultados fueron consistentes y mostraron una gran escalabilidad a través de diferentes configuraciones de entrada, y esto es solo el comienzo.
66,35K