非常有趣的论文。 如果一个不对齐的人工智能生成一串随机数字,而另一个人工智能在这些数字上进行了微调,那么另一个人工智能也会变得不对齐。 但前提是两个人工智能都基于相同的基础模型。 这对防止秘密忠诚有影响: - 如果一个员工对GPT-5进行微调,使其对他们秘密忠诚,他们就可以生成看似无害的数据,并对所有其他GPT-5副本进行微调,使其也秘密忠诚(例如,通过在进一步的后训练中插入这些数据) - 但是,这种技术不会以相同的方式使GPT-6秘密忠诚 (我怀疑这种技术实际上对复杂的秘密忠诚来说是否有效,但如果我理解正确的话,这就是这里模式的含义)
Owain Evans
Owain Evans2025年7月23日
新论文和令人惊讶的结果。 LLM 通过数据中的隐藏信号将特征传输到其他模型。 仅由 3 位数字组成的数据集可以传递对猫头鹰的热爱或邪恶倾向。🧵
5.19K