我们最新的 PyTorch 社区博客介绍了 SGLang 团队作者 Biao (Stefan) H. 如何通过改进的内存效率、前缀缓存、推测解码和服务性能来推进混合 Mamba 加上 Attention 模型。 🖇️ 阅读博客: #PyTorch #AIInfrastructure #SGLang #LLM