Наше новое исследование о том, как Sijun Tang из лаборатории Sky Computing UC Berkeley (@sijun_tan), ранее работавший в @Agentica_, разработал LLoCO — технику, которая позволяет обрабатывать контекст объемом 128k с использованием на 30× меньшего количества токенов и с 7.62× более быстрой инференцией. Работает на GPU H100 от Hyperbolic Labs.
1,19K