Nasz najnowszy blog społeczności PyTorch od zespołu SGLang omawia, jak SGLang rozwija hybrydowe modele Mamba plus Attention z poprawioną efektywnością pamięci, buforowaniem prefiksów, spekulacyjnym dekodowaniem i wydajnością serwowania. 🖇️Przeczytaj bloga: #PyTorch #AIInfrastructure #SGLang #LLM