Nasze nowe studium przypadku dotyczące tego, jak Sijun Tang z UC Berkeley Sky Computing Lab (@sijun_tan), wcześniej w @Agentica_, zbudował LLoCO - technikę, która umożliwia przetwarzanie kontekstu 128k z 30× mniejszą liczbą tokenów i 7,62× szybszym wnioskowaniem. Zasilane przez GPU H100 od Hyperbolic Labs.
1,19K