Nuestro nuevo estudio de caso sobre cómo Sijun Tang (@sijun_tan) de UC Berkeley Sky Computing Lab y anteriormente en @Agentica_ construyeron LLoCO, una técnica que permite el procesamiento de contexto de 128k con un 30× menos de tokens y una inferencia 7.62× más rápida. Desarrollado por las GPU H100 de Hyperbolic Labs.
1.17K