Наш останній блог спільноти PyTorch від команди SGLang розповідає, як SGLang розвиває гібридні моделі Mamba плюс Attention з покращеною ефективністю пам'яті, кешуванням префіксів, спекулятивним декодуванням та продуктивністю подачі. 🖇️Читайте блог: #PyTorch #AIInfrastructure #SGLang #LLM