O Dynamo 0.4 está aqui e oferece desempenho de inferência 4x no Blackwell com veiculação desagregada. ⚡️ Os novos recursos incluem: • Escalonamento automático desagregado baseado em SLO • Nova ferramenta de dimensionamento desagregado • Métricas de observabilidade específicas do LLM em tempo real • Tolerância a falhas em voo • GB200 NVL72 guias de desenvolvedor paralelo especializados em grande escala Esses recursos ajudam as fábricas de IA a reduzir os custos de serviço de inferência, atender consistentemente aos objetivos de nível de serviço, remover o trabalho de adivinhação para configurar ambientes de serviço desagregados e aumentar a resiliência do sistema de inferência. 🔗 Estamos construindo o NVIDIA Dynamo de forma aberta e valorizamos sua contribuição 👇 Confira nosso repositório no GitHub e participe da comunidade do NVIDIA Dynamo ➡️
1,19K