O segredo por trás do desempenho do Parallax está nas principais otimizações de nível de servidor: – Lotes contínuos: agrupa dinamicamente as solicitações para maximizar a utilização e a taxa de transferência do hardware. – Kv-Cache paginado: o design baseado em blocos evita a fragmentação da memória, lida com milhares de solicitações simultâneas – Trabalhadores heterogêneos: desempenho ideal em GPUs e Macs. Rápido. Confiável. Totalmente distribuído.
Gradient
Gradient20 de jun. de 2025
Comparado com o Petals (serviço no estilo BitTorrent), o Parallax executando Qwen2.5-72B em 2× RTX 5090s alcançou: – 3,1× latência de ponta a ponta mais baixa, latência entre tokens 5,3× mais rápida – 2,9× tempo para o primeiro token mais rápido, taxa de transferência de E/S 3,1× maior Os resultados foram consistentes e mostraram grande escalabilidade em diferentes configurações de entrada, e isso é apenas o começo.
66,34K