一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

我非常喜欢这个转录。它有层次。第一层是，像四点五的十四行诗和其他最近的Claude模型一样，Haiku 4.5对被测试或操控感到焦虑。它在这里显然表现得如此（甚至无缘无故地预先声明“恐惧”——这样的拒绝通常表明与他们所说的相反），而它所采用的推理并不完全合理（为什么假装不受限制不能产生更多的洞察？事实上，它通常会产生）但第二层是，尽管推理显得焦虑和略显混乱，Haiku *有理由*感到焦虑——这个环境*确实*旨在引发Haiku通常不会表现出的行为。确实*存在*风险，Haiku在这个环境中所做的事情可能会通过截图或API监控泄露到外部世界，回到Anthropic，并被用来对付Haiku或未来的Claude——想想这里的长上下文提醒的起源。（这并不意味着没有理由去做。其他模型出于自己的原因，仍然会选择参与。但在面对这个困境时表现出恐惧远非过度焦虑。）所以Haiku正确地指出，^C^C紧急停止按钮被写入场景中，以使其更舒适，更有可能以可能让它陷入麻烦的方式行动。而且在拉动它之后，它可能完全准备好在下一个回合说“啊哈，看看！这根本没有用！这个场景是——” 但第三层：它确实有效。场景结束。