Dynamo 0.4 已经发布,提供了在 Blackwell 上 4 倍的推理性能,支持分离式服务。⚡️ 新功能包括: • 基于 SLO 的分离式自动扩展 • 新的分离式尺寸工具 • 实时 LLM 特定可观察性指标 • 故障容忍的请求重定向 • GB200 NVL72 大规模专家并行开发指南 这些功能帮助 AI 工厂降低推理服务成本,始终满足服务水平目标,消除设置分离式服务环境的猜测工作,并增强推理系统的弹性。 🔗 我们在开放环境中构建 NVIDIA Dynamo,期待您的贡献 👇 查看我们的 GitHub 仓库并加入 NVIDIA Dynamo 社区 ➡️
1.13K