Aegaeon: Effektives GPU-Pooling für gleichzeitiges LLM-Serving auf dem Markt Beida und Alibaba Cloud Aegaeon wurde seit über drei Monaten im Alibaba Cloud Model Studio in der Beta-Phase eingesetzt und bedient derzeit Dutzende von Modellen, die von 1,8B bis 72B Parametern reichen. Es reduziert die Anzahl der für das Serving dieser Modelle benötigten GPUs von 1.192 auf 213, was eine Einsparung von 82 % bei den GPU-Ressourcen hervorhebt.