Aegaeon: Tối ưu hóa GPU Pooling cho việc phục vụ LLM đồng thời trên thị trường Beida và Alibaba Cloud Aegaeon đã được triển khai thử nghiệm tại Alibaba Cloud Model Studio trong hơn ba tháng, hiện đang phục vụ hàng chục mô hình với số lượng tham số từ 1,8B đến 72B. Nó giảm số lượng GPU cần thiết để phục vụ các mô hình này từ 1.192 xuống 213, cho thấy tiết kiệm 82% tài nguyên GPU.