Uusi tapaustutkimuksemme siitä, miten UC Berkeley Sky Computing Labin Sijun Tang (@sijun_tan) ja aiemmin @Agentica_ rakensivat LLoCO:n - tekniikan, joka mahdollistaa 128k:n kontekstin käsittelyn 30 × pienemmällä tokenilla ja 7,62 × nopeammalla päättelyllä. Voimanlähteenä Hyperbolic Labsin H100-grafiikkasuorittimet.
1,2K