Bí mật đằng sau hiệu suất của Parallax nằm ở những tối ưu hóa cấp máy chủ chính: – Nhóm liên tục: nhóm động các yêu cầu để tối đa hóa việc sử dụng phần cứng và thông lượng. – Bộ nhớ đệm KV theo trang: thiết kế theo khối ngăn chặn phân mảnh bộ nhớ, xử lý hàng ngàn yêu cầu đồng thời. – Công nhân không đồng nhất: hiệu suất tối ưu trên các GPU và Mac. Nhanh chóng. Đáng tin cậy. Phân phối hoàn toàn.
Gradient
Gradient20 thg 6, 2025
So với Petals (phục vụ theo kiểu BitTorrent), Parallax chạy Qwen2.5-72B trên 2× RTX 5090s đã đạt được: – Độ trễ end-to-end thấp hơn 3.1×, độ trễ giữa các token nhanh hơn 5.3× – Thời gian đến token đầu tiên nhanh hơn 2.9×, thông lượng I/O cao hơn 3.1× Kết quả rất nhất quán và cho thấy khả năng mở rộng tuyệt vời trên các cấu hình đầu vào khác nhau, và đây chỉ là khởi đầu.
66,35K