Наш последний блог сообщества PyTorch представляет автора команды SGLang Бяо (Стефан) Х. о том, как SGLang продвигает гибридные модели Mamba плюс Attention с улучшенной эффективностью памяти, кэшированием префиксов, спекулятивным декодированием и производительностью обслуживания. 🖇️ Читайте блог: #PyTorch #AIInfrastructure #SGLang #LLM