O nosso novo estudo de caso sobre como Sijun Tan (@sijun_tan) do UC Berkeley Sky Computing Lab e anteriormente líder de projeto na @Agentica_ construíram o LLoCO - uma técnica que permite o processamento de 128k de contexto com 30× menos tokens e 7,62× uma inferência mais rápida. Alimentado pelas GPUs H100 da Hyperbolic Labs.
1,96K