我们最新的 PyTorch 社区博客来自 SGLang 团队,介绍了 SGLang 如何通过改进的内存效率、前缀缓存、推测解码和服务性能来推进混合 Mamba 加上注意力模型。 🖇️阅读博客: #PyTorch #AIInfrastructure #SGLang #LLM