我们新的案例研究介绍了加州大学伯克利分校天空计算实验室的Sijun Tan(@sijun_tan)以及之前在@Agentica_的项目负责人如何构建LLoCO——一种能够以30倍更少的token处理128k上下文并实现7.62倍更快推理的技术。由Hyperbolic Labs的H100 GPU提供支持。
1.95K