一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

这篇论文安静地揭示了为什么大多数“工程用AI代理”在离开玩具演示的那一刻就失败了。每个人都认为困难的部分是语言、推理或更大的模型。这项工作表明，真正的瓶颈是结构。论文介绍了SimuAgent，一个基于LLM的Simulink助手，Simulink是数百万工程师在安全关键行业中使用的图形建模环境。汽车、飞机、电网。这些地方，幻觉没有第二次机会。核心问题很棘手。Simulink不是文本。它是具有严格拓扑规则、特定领域约束和成千上万有效但脆弱的块组合的层次图。将XML倒入LLM是行不通的。截图也不行。长提示在上下文限制下崩溃。因此，作者改变了表示方式。 SimuAgent将Simulink模型转换为紧凑的Python字典，而不是XML或图像。只有基本要素得以保留：块、参数、连接。没有布局噪声。没有视觉杂乱。在真实示例中，令牌计数从约43k降至约2.7k，简化后甚至更低。这不是表面上的变化。它从根本上改变了模型可以推理的内容。此外，代理使用精简的计划-执行循环。不是一个庞大的多代理马戏团。需要时规划。安全时执行。仅在验证失败后重新规划。一个本地Python测试工具在MATLAB运行之前捕捉接线错误、无效参数和类型不匹配。但最有趣的贡献不是架构方面的，而是他们如何训练模型。长时间跨度的工具使用有一个残酷的奖励问题。你只能在最后知道模型是否成功。一个标量奖励。没有中途指导。GRPO稍微有帮助，但仍然稀疏。他们的解决方案是Reflection-GRPO。当第一批回滚失败时，模型生成短的反思轨迹，解释出错的原因——工具使用不当、错误假设、缺失步骤。这些反思被输入到第二个子组中，引导探索而不泄露答案。早期，反思频繁。随着模型的改进，它自然会逐渐减少。学习加速。不稳定性下降。他们将此与一个巧妙的自我监督技巧结合起来：抽象-重建。代理总结一个Simulink模型，然后尝试仅使用该摘要重建它。这迫使它桥接高层意图和低层实现，正是现实工程师所做的。基准是真实的，而不是合成的。SimuBench包括5,300个任务，涵盖控制、电气、机械、热、流体和电磁系统。创建、修改、质量保证。小模型和大模型。 ...