Aegaeon: Agrupación efectiva de GPU para la atención concurrente de LLM en el mercado Beida y Alibaba Cloud Aegaeon ha sido desplegado en beta en Alibaba Cloud Model Studio durante más de tres meses, sirviendo actualmente a decenas de modelos que van desde 1.8B hasta 72B parámetros. Reduce el número de GPUs requeridas para servir estos modelos de 1,192 a 213, destacando un ahorro del 82% en recursos de GPU.