Studi kasus baru kami tentang bagaimana Sijun Tang (@sijun_tan) dari UC Berkeley Sky Computing Lab dan sebelumnya di @Agentica_ membangun LLoCO - teknik yang memungkinkan pemrosesan konteks 128k dengan 30× token lebih sedikit dan inferensi 7,62× lebih cepat. Didukung oleh GPU H100 Hyperbolic Labs.
1,17K