O nosso novo estudo de caso sobre como Sijun Tang (@sijun_tan) do UC Berkeley Sky Computing Lab e anteriormente na @Agentica_ construíram o LLoCO - uma técnica que permite o processamento de 128k de contexto com 30× menos tokens e 7,62× uma inferência mais rápida. Alimentado pelas GPUs H100 da Hyperbolic Labs.
1,19K