热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
这篇论文安静地揭示了为什么大多数“工程用AI代理”在离开玩具演示的那一刻就失败了。
每个人都认为困难的部分是语言、推理或更大的模型。这项工作表明,真正的瓶颈是结构。
论文介绍了SimuAgent,一个基于LLM的Simulink助手,Simulink是数百万工程师在安全关键行业中使用的图形建模环境。汽车、飞机、电网。这些地方,幻觉没有第二次机会。
核心问题很棘手。Simulink不是文本。它是具有严格拓扑规则、特定领域约束和成千上万有效但脆弱的块组合的层次图。将XML倒入LLM是行不通的。截图也不行。长提示在上下文限制下崩溃。
因此,作者改变了表示方式。
SimuAgent将Simulink模型转换为紧凑的Python字典,而不是XML或图像。只有基本要素得以保留:块、参数、连接。没有布局噪声。没有视觉杂乱。在真实示例中,令牌计数从约43k降至约2.7k,简化后甚至更低。
这不是表面上的变化。它从根本上改变了模型可以推理的内容。
此外,代理使用精简的计划-执行循环。不是一个庞大的多代理马戏团。需要时规划。安全时执行。仅在验证失败后重新规划。一个本地Python测试工具在MATLAB运行之前捕捉接线错误、无效参数和类型不匹配。
但最有趣的贡献不是架构方面的,而是他们如何训练模型。
长时间跨度的工具使用有一个残酷的奖励问题。你只能在最后知道模型是否成功。一个标量奖励。没有中途指导。GRPO稍微有帮助,但仍然稀疏。
他们的解决方案是Reflection-GRPO。
当第一批回滚失败时,模型生成短的反思轨迹,解释出错的原因——工具使用不当、错误假设、缺失步骤。这些反思被输入到第二个子组中,引导探索而不泄露答案。早期,反思频繁。随着模型的改进,它自然会逐渐减少。
学习加速。不稳定性下降。
他们将此与一个巧妙的自我监督技巧结合起来:抽象-重建。代理总结一个Simulink模型,然后尝试仅使用该摘要重建它。这迫使它桥接高层意图和低层实现,正是现实工程师所做的。
基准是真实的,而不是合成的。SimuBench包括5,300个任务,涵盖控制、电气、机械、热、流体和电磁系统。创建、修改、质量保证。小模型和大模型。
...

热门
排行
收藏
