Aegaeon: Effektiv GPU-sammenslåing for samtidig LLM-servering på markedet Beida og Alibaba Cloud Aegaeon har blitt betadistribuert i Alibaba Cloud Model Studio i over tre måneder, og betjener for tiden titalls modeller som spenner fra 1.8B til 72B parametere. Det reduserer antall GPUer som kreves for å betjene disse modellene fra 1,192 til 213, noe som fremhever en 82 % GPU-ressursbesparelse