Nosso novo estudo de caso sobre como Sijun Tang (@sijun_tan) do UC Berkeley Sky Computing Lab e anteriormente em @Agentica_ construíram o LLoCO - uma técnica que permite o processamento de contexto de 128k com 30× menos tokens e inferência 7,62× mais rápida. Alimentado pelas GPUs H100 da Hyperbolic Labs.
1,17K