Nosso mais recente blog da comunidade PyTorch, da equipe SGLang, aborda como o SGLang avança modelos híbridos Mamba mais Attention com eficiência de memória aprimorada, cache de prefixos, decodificação especulativa e desempenho de serviço. 🖇️Leia o blog: #PyTorch #AIInfrastructure #SGLang #LLM