O nosso mais recente blog da comunidade PyTorch da equipa SGLang aborda como o SGLang avança modelos híbridos Mamba mais modelos de Atenção com eficiência de memória melhorada, cache de prefixo, decodificação especulativa e desempenho de serviço. 🖇️Leia o blog: #PyTorch #AIInfrastructure #SGLang #LLM