Nosso novo estudo de caso sobre como Sijun Tan (@sijun_tan) do UC Berkeley Sky Computing Lab e anteriormente líder de projeto na @Agentica_ construiu o LLoCO - uma técnica que permite o processamento de contexto de 128k com 30× menos tokens e 7,62× inferência mais rápida. Alimentado pelas GPUs H100 da Hyperbolic Labs.
1,9K