一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

超有趣的論文。如果一個不對齊的AI生成一串隨機數字，而另一個AI在這些數字上進行微調，那麼另一個AI也會變得不對齊。但只有當兩個AI都從相同的基礎模型開始時。這對於防止秘密忠誠有影響： - 如果一名員工微調GPT-5使其對他們秘密忠誠，那麼他們可以生成看似無害的數據，並微調所有其他GPT-5副本使其對他們秘密忠誠（例如，通過在進一步的後訓練中插入數據） - 但這種技術不會以相同的方式使GPT-6秘密忠誠（我懷疑這種技術實際上對於像複雜的秘密忠誠這樣的東西是否有效，但如果我理解正確，這是這裡模式的含義）

5.19K