我们新的案例研究介绍了加州大学伯克利分校天空计算实验室的唐思俊(@sijun_tan)以及之前在 @Agentica_ 的工作,构建了 LLoCO——一种能够以 30 倍更少的令牌和 7.62 倍更快的推理速度处理 128k 上下文的技术。由 Hyperbolic Labs 的 H100 GPU 提供支持。
1.17K