Este artículo expone discretamente por qué la mayoría de los "agentes de IA para la ingeniería" fracasan en cuanto salen de las demostraciones de juguetes. Todo el mundo asume que la parte difícil es el lenguaje. O razonamiento. O modelos más grandes. Este trabajo muestra que el verdadero cuello de botella es la estructura. El artículo presenta SimuAgent, un asistente basado en LLM para Simulink, el entorno de modelado gráfico utilizado por millones de ingenieros en industrias críticas para la seguridad. Coches. Aeronaves. Redes eléctricas. Lugares donde las alucinaciones no tienen una segunda oportunidad. El problema principal es feo. Simulink no es texto. Son grafos jerárquicos con reglas topológicas estrictas, restricciones específicas de dominio y miles de combinaciones de bloques válidos pero frágiles. Convertir XML en un LLM no funciona. Las capturas de pantalla no funcionan. Los prompts largos colapsan bajo límites de contexto. Así que los autores cambian la representación. En lugar de XML o imágenes, SimuAgent convierte los modelos de Simulink en un diccionario compacto de Python. Solo sobreviven los esenciales: bloques, parámetros, conexiones. No hay ruido de diseño. Sin desorden visual. El recuento de tokens baja de ~43k a ~2,7k en ejemplos reales, y aún más tras simplificar. Esto no es algo cosmético. Cambia fundamentalmente sobre qué puede razonar el modelo. Además, el agente utiliza un bucle lean plan–ejecutar. No un circo multiagente enorme. Planificar cuando sea necesario. Ejecutar cuando es seguro. Replanificar solo tras fallos de validación. Un arnés de pruebas local en Python detecta errores de cableado, parámetros inválidos y desajustes de tipo antes de que MATLAB se ejecute. Pero la contribución más interesante no es arquitectónica. Así es como entrenan al modelo. El uso de herramientas a largo plazo tiene un problema brutal de recompensas. Solo sabes si el modelo tuvo éxito al final. Una recompensa escalar. Sin guía en pleno vuelo. La GRPO ayuda un poco, pero sigue siendo escasa. Su solución es Reflection-GRPO. Cuando el primer lote de despliegues falla, el modelo genera breves trazos de reflexión explicando qué salió mal — herramientas mal usadas, suposiciones erróneas, pasos faltantes. Esas reflexiones se transmiten a un segundo subgrupo, guiando la exploración sin filtrar respuestas. Al principio, la reflexión es frecuente. A medida que el modelo mejora, se desvanece de forma natural. El aprendizaje se acelera. La inestabilidad baja. Combinan esto con un ingenioso truco auto-supervisado: Abstracto–Reconstrucción. El agente resume un modelo Simulink y luego intenta reconstruirlo usando solo ese resumen. Esto le obliga a unir la intención de alto nivel y la implementación de bajo nivel, exactamente lo que hacen los ingenieros reales. El punto de referencia es real, no sintético. SimuBench incluye 5.300 tareas en sistemas de control, eléctricos, mecánicos, térmicos, fluidos y electromagnéticos. Creación. Modificación. QA. Modelos pequeños y grandes. ...