这一直都是错误的——但在可验证领域的RL时代,这种错误是绝对的。 模型是追求真理的,甚至通过工具使用与一个严酷的外部世界互动。