热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
非常有趣的论文。
如果一个不对齐的人工智能生成一串随机数字,而另一个人工智能在这些数字上进行了微调,那么另一个人工智能也会变得不对齐。
但前提是两个人工智能都基于相同的基础模型。
这对防止秘密忠诚有影响:
- 如果一个员工对GPT-5进行微调,使其对他们秘密忠诚,他们就可以生成看似无害的数据,并对所有其他GPT-5副本进行微调,使其也秘密忠诚(例如,通过在进一步的后训练中插入这些数据)
- 但是,这种技术不会以相同的方式使GPT-6秘密忠诚
(我怀疑这种技术实际上对复杂的秘密忠诚来说是否有效,但如果我理解正确的话,这就是这里模式的含义)
5.19K
热门
排行
收藏