Наше новое исследование о том, как Сиджун Тан из Лаборатории облачных вычислений UC Berkeley (@sijun_tan), ранее руководивший проектом в @Agentica_, разработал LLoCO - технику, позволяющую обрабатывать контекст объемом 128k с использованием на 30× меньшего количества токенов и с 7.62× более быстрой инференцией. Работает на GPU H100 от Hyperbolic Labs.
1,96K