Uusi tapaustutkimuksemme siitä, miten UC Berkeley Sky Computing Labin Sijun Tan (@sijun_tan) ja aiemmin @Agentica_:n projektijohtaja rakensi LLoCO:n - tekniikan, joka mahdollistaa 128k:n kontekstin käsittelyn 30 × vähemmällä tokenilla ja 7,62 × nopeammalla päättelyllä. Voimanlähteenä Hyperbolic Labsin H100-grafiikkasuorittimet.
1,96K