Nghiên cứu điển hình mới của chúng tôi về cách mà Sijun Tang (@sijun_tan) từ Phòng thí nghiệm Sky Computing của UC Berkeley và trước đây tại @Agentica_ đã xây dựng LLoCO - một kỹ thuật cho phép xử lý ngữ cảnh 128k với 30× ít token hơn và suy diễn nhanh hơn 7.62×. Được hỗ trợ bởi GPU H100 của Hyperbolic Labs.
1,19K