这篇论文安静地揭示了为什么大多数“工程用AI代理”在离开玩具演示的那一刻就失败了。 每个人都认为困难的部分是语言、推理或更大的模型。这项工作表明,真正的瓶颈是结构。 论文介绍了SimuAgent,一个基于LLM的Simulink助手,Simulink是数百万工程师在安全关键行业中使用的图形建模环境。汽车、飞机、电网。这些地方,幻觉没有第二次机会。 核心问题很棘手。Simulink不是文本。它是具有严格拓扑规则、特定领域约束和成千上万有效但脆弱的块组合的层次图。将XML倒入LLM是行不通的。截图也不行。长提示在上下文限制下崩溃。 因此,作者改变了表示方式。 SimuAgent将Simulink模型转换为紧凑的Python字典,而不是XML或图像。只有基本要素得以保留:块、参数、连接。没有布局噪声。没有视觉杂乱。在真实示例中,令牌计数从约43k降至约2.7k,简化后甚至更低。 这不是表面上的变化。它从根本上改变了模型可以推理的内容。 此外,代理使用精简的计划-执行循环。不是一个庞大的多代理马戏团。需要时规划。安全时执行。仅在验证失败后重新规划。一个本地Python测试工具在MATLAB运行之前捕捉接线错误、无效参数和类型不匹配。 但最有趣的贡献不是架构方面的,而是他们如何训练模型。 长时间跨度的工具使用有一个残酷的奖励问题。你只能在最后知道模型是否成功。一个标量奖励。没有中途指导。GRPO稍微有帮助,但仍然稀疏。 他们的解决方案是Reflection-GRPO。 当第一批回滚失败时,模型生成短的反思轨迹,解释出错的原因——工具使用不当、错误假设、缺失步骤。这些反思被输入到第二个子组中,引导探索而不泄露答案。早期,反思频繁。随着模型的改进,它自然会逐渐减少。 学习加速。不稳定性下降。 他们将此与一个巧妙的自我监督技巧结合起来:抽象-重建。代理总结一个Simulink模型,然后尝试仅使用该摘要重建它。这迫使它桥接高层意图和低层实现,正是现实工程师所做的。 基准是真实的,而不是合成的。SimuBench包括5,300个任务,涵盖控制、电气、机械、热、流体和电磁系统。创建、修改、质量保证。小模型和大模型。 ...