Nuestro último blog de la comunidad de PyTorch presenta al autor del equipo de SGLang, Biao (Stefan) H., sobre cómo SGLang avanza en los modelos híbridos Mamba más Attention con una mejor eficiencia de memoria, almacenamiento en caché de prefijos, decodificación especulativa y rendimiento de servicio. 🖇️ Lee el blog: #PyTorch #AIInfrastructure #SGLang #LLM