Aegaeon:市场上并发 LLM 服务的有效 GPU 池化 北大与阿里云 Aegaeon 已在阿里云模型工作室进行 beta 部署超过三个月,目前服务的模型数量从 1.8B 到 72B 参数不等。它将服务这些模型所需的 GPU 数量从 1,192 降低到 213,突显出 82% 的 GPU 资源节省。