Dynamo 0.4 ya está aquí y ofrece un rendimiento de inferencia 4x en Blackwell con servicio desagregado. ⚡️ Las nuevas características incluyen: • Autoscaling desagregado basado en SLO • Nueva herramienta de dimensionamiento desagregado • Métricas de observabilidad específicas de LLM en tiempo real • Tolerancia a fallos con reenvío de solicitudes en vuelo • Guías para desarrolladores paralelos de expertos a gran escala GB200 NVL72 Estas características ayudan a las fábricas de IA a reducir los costos de servicio de inferencia, cumplir consistentemente con los objetivos de nivel de servicio, eliminar la incertidumbre al configurar entornos de servicio desagregado y mejorar la resiliencia del sistema de inferencia. 🔗 Estamos construyendo NVIDIA Dynamo de manera abierta y valoramos tu contribución 👇 Consulta nuestro repositorio en GitHub y únete a la comunidad de NVIDIA Dynamo ➡️
1,19K