Noul nostru studiu de caz despre modul în care Sijun Tan (@sijun_tan) de la UC Berkeley Sky Computing Lab și anterior lider de proiect la @Agentica_ a construit LLoCO - o tehnică care permite procesarea contextului de 128k cu 30× mai puține jetoane și o inferență cu 7,62× mai rapidă. Alimentat de GPU-urile H100 de la Hyperbolic Labs.
1,96K