O segredo por trás do desempenho do Parallax reside em otimizações chave de nível servidor: – Agrupamento contínuo: agrupa dinamicamente as solicitações para maximizar a utilização do hardware e a taxa de transferência. – KV-Cache paginado: design baseado em blocos que previne a fragmentação da memória, gerenciando milhares de solicitações simultâneas. – Trabalhadores heterogêneos: desempenho ideal em GPUs e Macs. Rápido. Fiável. Totalmente distribuído.
Gradient
Gradient20/06/2025
Comparado com Petals (serviço estilo BitTorrent), o Parallax executando Qwen2.5-72B em 2× RTX 5090s alcançou: – 3.1× menor latência de ponta a ponta, 5.3× mais rápida latência entre tokens – 2.9× mais rápido tempo até o primeiro token, 3.1× maior taxa de I/O Os resultados foram consistentes e mostraram grande escalabilidade em diferentes configurações de entrada, e isso é apenas o começo.
66,33K