Dynamo 0.4 ist da und bietet eine 4-fache Inferenzleistung auf Blackwell mit disaggregiertem Serving. ⚡️ Neue Funktionen umfassen: • SLO-basiertes disaggregiertes Autoscaling • Neues disaggregiertes Größenanpassungstool • Echtzeit-LLM-spezifische Beobachtungsmetriken • Fehlertoleranz bei der Umleitung von Anfragen in Bearbeitung • GB200 NVL72 große Expertenleitfäden für parallele Entwickler Diese Funktionen helfen KI-Fabriken, die Kosten für das Inferenz-Serving zu senken, die Service-Level-Ziele konsequent zu erreichen, die Unsicherheit bei der Einrichtung von disaggregierten Serving-Umgebungen zu beseitigen und die Resilienz des Inferenzsystems zu verbessern. 🔗 Wir entwickeln NVIDIA Dynamo offen und schätzen Ihren Beitrag 👇 Schauen Sie sich unser Repository auf GitHub an und treten Sie der NVIDIA Dynamo-Community bei ➡️
1,17K