我們最新的 PyTorch 社區博客來自 SGLang 團隊,介紹了 SGLang 如何通過改進的記憶體效率、前綴快取、推測解碼和服務性能來推進混合 Mamba 加上注意力模型。 🖇️閱讀博客: #PyTorch #AIInfrastructure #SGLang #LLM