Vår nye casestudie om hvordan UC Berkeley Sky Computing Labs Sijun Tan (@sijun_tan) og tidligere prosjektleder ved @Agentica_ bygde LLoCO - en teknikk som muliggjør 128k kontekstbehandling med 30× færre tokens og 7,62× raskere slutning. Drevet av Hyperbolic Labs H100 GPUer.
1,91K