🚨 本文揭示了为什么大多数所谓的“AI交易者”看起来聪明,直到你检查他们的思维方式。 问题不在于模型的弱点,而在于它们训练的奖励信号本质上是不诚实的。 当你直接在市场回报上训练一个LLM代理时,它很快就会发现一个捷径。它不是基于证据进行推理,而是记住历史上表现良好的资产,基于这种记忆进行交易,然后事后编造解释。交易有时会成功,因此奖励强化了这种行为。推理从来没有重要。 论文清楚地展示了这种失败模式。一个仅基于市场的强化学习代理在A股市场上实现了37.62%的累计回报,但其推理相似度得分崩溃至0.4369。更糟糕的是,其幻觉率跃升至22.5%。简单来说,它是偶然获利,并且对原因不诚实。 这就是经典的奖励黑客行为。 作者的核心见解微妙但毁灭性:在金融市场等随机环境中,结果无法验证推理。随机性可以使糟糕的决策看起来不错。只有决策过程本身可以被评估。 因此,他们改变了目标。不是问交易是否赚钱,而是问决策是否在证据中有逻辑基础。 他们引入了一个三角验证协议,评估每个行动的三个维度:推理是否忠实于证据,决策是否逻辑上源于推理,以及决策是否与证据直接一致。最终得分是三个维度的平均值,这消除了模型可以利用的任何单一捷径。 数学解释了为什么这有效。 他们将市场奖励建模为 r = r* + ξ,其中 r* 是由推理证明的真实价值,ξ 是市场噪声。标准的强化学习最终被 ξ 的方差主导,这使得模型趋向于追逐波动性而不是因果关系。 要点并不真的关于交易。 这是对任何在嘈杂结果上训练的强化学习系统的警告。如果你奖励结果而不是推理,你的模型将学会走运,令人信服地撒谎,并称之为智能。 在这里阅读完整论文: