Aegaeon: Efektywne grupowanie GPU dla równoczesnego serwowania LLM na rynku Beida i Alibaba Cloud Aegaeon jest w fazie beta w Alibaba Cloud Model Studio od ponad trzech miesięcy, obecnie obsługując dziesiątki modeli, które mają od 1,8B do 72B parametrów. Redukuje liczbę wymaganych GPU do obsługi tych modeli z 1 192 do 213, co podkreśla oszczędność zasobów GPU na poziomie 82%