Vår nya fallstudie om hur Sijun Tan (@sijun_tan) vid UC Berkeley Sky Computing Lab, och tidigare projektledare på @Agentica_ byggde LLoCO - en teknik som möjliggör 128k kontextbehandling med 30 × färre tokens och 7,62 × snabbare inferens. Drivs av Hyperbolic Labs H100 GPU:er.
1,96K