Наш останній блог спільноти PyTorch розповідає про автора команди SGLang Бяо (Стефан) Х. про те, як SGLang розвиває гібридні моделі Mamba плюс Attention з покращеною ефективною пам'яттю, кешуванням префіксів, спекулятивним декодуванням і продуктивністю подачі. 🖇️ Читайте блог: #PyTorch #AIInfrastructure #SGLang #LLM