Naše nová případová studie o tom, jak Sijun Tang (@sijun_tan) z UC Berkeley Sky Computing Lab a dříve v @Agentica_ vytvořili LLoCO – techniku, která umožňuje zpracování 128 tisíc kontextů s 30× méně tokeny a 7,62× rychlejší inferencí. Poháněno grafickými procesory Hyperbolic Labs H100.
1,17K