Nuestro nuevo estudio de caso sobre cómo Sijun Tang (@sijun_tan) del Laboratorio de Computación en la Nube de UC Berkeley y anteriormente en @Agentica_ construyó LLoCO, una técnica que permite el procesamiento de contextos de 128k con 30× menos tokens y 7.62× más rápido en inferencia. Impulsado por las GPUs H100 de Hyperbolic Labs.
1,19K