Il nostro nuovo caso studio su come Sijun Tan (@sijun_tan) del UC Berkeley Sky Computing Lab e precedentemente project lead di @Agentica_ ha costruito LLoCO - una tecnica che consente l'elaborazione di contesti da 128k con 30× meno token e un'inferenza 7,62× più veloce. Alimentato dalle GPU H100 di Hyperbolic Labs.
1,92K