Наше нове тематичне дослідження про те, як Сіджун Тан (@sijun_tan) з UC Berkeley Sky Computing Lab і колишній керівник проекту в @Agentica_ створив LLoCO - техніку, яка дозволяє обробляти контекст 128 тис з 30× меншою кількістю токенів і швидшим висновком на 7,62×. Працює на відеокартах H100 від Hyperbolic Labs.
1,93K