Nasze nowe studium przypadku dotyczące tego, jak Sijun Tan (@sijun_tan) z UC Berkeley Sky Computing Lab, wcześniej lider projektu w @Agentica_, zbudował LLoCO - technikę, która umożliwia przetwarzanie kontekstu 128k z 30× mniejszą liczbą tokenów i 7,62× szybszym wnioskowaniem. Napędzane przez GPU H100 od Hyperbolic Labs.
1,95K