Aegaeon: Pool de GPU eficaz para atendimento simultâneo de LLM no mercado Beida e Alibaba Cloud O Aegaeon foi implantado na versão beta do Alibaba Cloud Model Studio por mais de três meses, atualmente atendendo a dezenas de modelos que variam de 1,8 bilhão a 72 bilhões de parâmetros. Ele reduz o número de GPUs necessárias para atender a esses modelos de 1.192 para 213, destacando uma economia de recursos de GPU de 82%