Dynamo 0.4 est là et offre des performances d'inférence 4x sur Blackwell avec un service désagrégé. ⚡️ Les nouvelles fonctionnalités incluent : • Autoscaling désagrégé basé sur les SLO • Nouvel outil de dimensionnement désagrégé • Métriques d'observabilité spécifiques aux LLM en temps réel • Tolérance aux pannes avec redirection des requêtes en cours • Guides de développement parallèles d'experts à grande échelle GB200 NVL72 Ces fonctionnalités aident les usines d'IA à réduire les coûts de service d'inférence, à respecter systématiquement les objectifs de niveau de service, à éliminer les incertitudes lors de la configuration des environnements de service désagrégé et à améliorer la résilience du système d'inférence. 🔗 Nous construisons NVIDIA Dynamo de manière ouverte et apprécions votre contribution 👇 Découvrez notre dépôt sur GitHub et rejoignez la communauté NVIDIA Dynamo ➡️
1,16K