Dynamo 0.4 jest już dostępny i oferuje 4-krotną wydajność wnioskowania na Blackwell z rozdzielonym serwisowaniem. ⚡️ Nowe funkcje obejmują: • Autoskalowanie rozdzielone oparte na SLO • Nowe narzędzie do rozdzielonego wymiarowania • Metryki obserwowalności specyficzne dla LLM w czasie rzeczywistym • Tolerancja błędów z przekierowaniem żądań w trakcie realizacji • Przewodniki dla programistów GB200 NVL72 dotyczące dużej skali ekspertów w trybie równoległym Te funkcje pomagają fabrykom AI obniżyć koszty serwowania wniosków, konsekwentnie spełniać cele poziomu usług, eliminować zgadywanie przy konfigurowaniu środowisk rozdzielonego serwisowania oraz zwiększać odporność systemu wnioskowania. 🔗 Budujemy NVIDIA Dynamo w otwartym modelu i cenimy Twój wkład 👇 Sprawdź nasz repozytorium na GitHubie i dołącz do społeczności NVIDIA Dynamo ➡️
1,18K