Rahasia di balik kinerja Parallax terletak pada pengoptimalan tingkat server utama: – Batching berkelanjutan: mengelompokkan permintaan secara dinamis untuk memaksimalkan pemanfaatan dan throughput perangkat keras. – KV-Cache halaman: desain berbasis blok mencegah fragmentasi memori, menangani ribuan permintaan bersamaan – Pekerja heterogen: kinerja optimal di seluruh GPU dan Mac. Cepat. Dapat diandalkan. Didistribusikan sepenuhnya.
Gradient
Gradient20 Jun 2025
Dibandingkan dengan Petals (penyajian gaya BitTorrent), Parallax yang menjalankan Qwen2.5-72B pada 2× RTX 5090 mencapai: – 3,1× latensi end-to-end yang lebih rendah, latensi antar-token 5,3× lebih cepat – 2,9× lebih cepat time-to-first-token, 3,1× throughput I/O lebih tinggi Hasilnya konsisten dan menunjukkan skalabilitas yang luar biasa di berbagai konfigurasi input, dan ini baru permulaan.
66,34K