Noul nostru studiu de caz despre modul în care Sijun Tang (@sijun_tan) de la UC Berkeley Sky Computing Lab și anterior la @Agentica_ a construit LLoCO - o tehnică care permite procesarea contextului de 128k cu 30× mai puține jetoane și o inferență cu 7,62× mai rapidă. Alimentat de GPU-urile H100 de la Hyperbolic Labs.
1,19K