超有趣的論文。 如果一個不對齊的AI生成一串隨機數字,而另一個AI在這些數字上進行微調,那麼另一個AI也會變得不對齊。 但只有當兩個AI都從相同的基礎模型開始時。 這對於防止秘密忠誠有影響: - 如果一名員工微調GPT-5使其對他們秘密忠誠,那麼他們可以生成看似無害的數據,並微調所有其他GPT-5副本使其對他們秘密忠誠(例如,通過在進一步的後訓練中插入數據) - 但這種技術不會以相同的方式使GPT-6秘密忠誠 (我懷疑這種技術實際上對於像複雜的秘密忠誠這樣的東西是否有效,但如果我理解正確,這是這裡模式的含義)
Owain Evans
Owain Evans2025年7月23日
新論文和令人驚訝的結果。 LLM 透過資料中的隱藏訊號將特徵傳輸到其他模型。 僅由 3 位數字組成的數據集可以傳達對貓頭鷹的熱愛或邪惡傾向。🧵
5.19K