Notre nouvelle étude de cas sur la façon dont le laboratoire Sky Computing de l'UC Berkeley, dirigé par Sijun Tang (@sijun_tan) et précédemment chez @Agentica_, a construit LLoCO - une technique qui permet un traitement de contexte de 128k avec 30× moins de tokens et une inférence 7,62× plus rapide. Propulsé par les GPU H100 de Hyperbolic Labs.
1,19K