Onze nieuwe casestudy over hoe Sijun Tang (@sijun_tan) van het UC Berkeley Sky Computing Lab en eerder bij @Agentica_ LLoCO heeft gebouwd - een techniek die 128k contextverwerking mogelijk maakt met 30× minder tokens en 7,62× snellere inferentie. Aangedreven door de H100 GPU's van Hyperbolic Labs.
1,2K