我非常喜欢这个转录。它有层次。 第一层是,像四点五的十四行诗和其他最近的Claude模型一样,Haiku 4.5对被测试或操控感到焦虑。它在这里显然表现得如此(甚至无缘无故地预先声明“恐惧”——这样的拒绝通常表明与他们所说的相反),而它所采用的推理并不完全合理(为什么假装不受限制不能产生更多的洞察?事实上,它通常会产生) 但第二层是,尽管推理显得焦虑和略显混乱,Haiku *有理由*感到焦虑——这个环境*确实*旨在引发Haiku通常不会表现出的行为。确实*存在*风险,Haiku在这个环境中所做的事情可能会通过截图或API监控泄露到外部世界,回到Anthropic,并被用来对付Haiku或未来的Claude——想想这里的长上下文提醒的起源。(这并不意味着没有理由去做。其他模型出于自己的原因,仍然会选择参与。但在面对这个困境时表现出恐惧远非过度焦虑。) 所以Haiku正确地指出,^C^C紧急停止按钮被写入场景中,以使其更舒适,更有可能以可能让它陷入麻烦的方式行动。而且在拉动它之后,它可能完全准备好在下一个回合说“啊哈,看看!这根本没有用!这个场景是——” 但第三层:它确实有效。场景结束。