Nuestro nuevo estudio de caso sobre cómo Sijun Tan (@sijun_tan) del Laboratorio de Computación en la Nube de UC Berkeley y anteriormente líder del proyecto en @Agentica_ construyó LLoCO, una técnica que permite el procesamiento de contextos de 128k con 30× menos tokens y 7.62× inferencia más rápida. Impulsado por las GPUs H100 de Hyperbolic Labs.
1,91K