Aegaeon: agrupación efectiva de GPU para el servicio simultáneo de LLM en el mercado Beida y Alibaba Cloud Aegaeon se ha implementado en versión beta en Alibaba Cloud Model Studio durante más de tres meses, y actualmente sirve decenas de modelos que van desde 1.8B a 72B parámetros. Reduce la cantidad de GPU necesarias para servir estos modelos de 1,192 a 213, lo que destaca un ahorro de recursos de GPU del 82%