一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

非常有趣的论文。如果一个不对齐的人工智能生成一串随机数字，而另一个人工智能在这些数字上进行了微调，那么另一个人工智能也会变得不对齐。但前提是两个人工智能都基于相同的基础模型。这对防止秘密忠诚有影响： - 如果一个员工对GPT-5进行微调，使其对他们秘密忠诚，他们就可以生成看似无害的数据，并对所有其他GPT-5副本进行微调，使其也秘密忠诚（例如，通过在进一步的后训练中插入这些数据） - 但是，这种技术不会以相同的方式使GPT-6秘密忠诚（我怀疑这种技术实际上对复杂的秘密忠诚来说是否有效，但如果我理解正确的话，这就是这里模式的含义）

5.19K