Vår nya fallstudie om hur UC Berkeley Sky Computing Labs Sijun Tang (@sijun_tan) och tidigare på @Agentica_ byggde LLoCO - en teknik som möjliggör 128k kontextbehandling med 30× färre tokens och 7,62× snabbare inferens. Drivs av Hyperbolic Labs H100 GPU:er.
1,2K