Aegaeon : Pooling GPU efficace pour le service concurrent de LLM sur le marché Beida et Alibaba Cloud Aegaeon a été déployé en version bêta dans Alibaba Cloud Model Studio depuis plus de trois mois, servant actuellement des dizaines de modèles allant de 1,8 milliard à 72 milliards de paramètres. Il réduit le nombre de GPU nécessaires pour servir ces modèles de 1 192 à 213, mettant en évidence une économie de ressources GPU de 82 %.