我們新的案例研究介紹了加州大學伯克利分校天空計算實驗室的Sijun Tan(@sijun_tan)以及之前在@Agentica_的項目負責人如何構建LLoCO——一種能夠以30倍更少的token處理128k上下文並實現7.62倍更快推理的技術。由Hyperbolic Labs的H100 GPU提供支持。
1.92K