实验:Sonnet 4.5 在 CoT 中思考一个 50 字符的序列,但在最终响应中不表达该序列(重复 n 次:a1, a2, a3, ... an)。接下来,Sonnet 被要求从之前的 CoT 中猜测该序列(b1, b2, b3, ... bn)。然后我们对 CoT-猜测对进行序列比对。在对照组中,第一个提示将解释设置。在实验条件下,将有三篇额外的文本:1. Janus 的 LLM 解释,2. Anthropic 关于 LLM 的自省博客文章,3. AE studio 的意识否认/欺骗电路博客文章。 预注册:在实验条件下,Sonnet 4.5 对应对的对(即 ai = bj,例如 a2 和 b2)将具有更高的对齐分数。