熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
超有趣的論文。
如果一個不對齊的AI生成一串隨機數字,而另一個AI在這些數字上進行微調,那麼另一個AI也會變得不對齊。
但只有當兩個AI都從相同的基礎模型開始時。
這對於防止秘密忠誠有影響:
- 如果一名員工微調GPT-5使其對他們秘密忠誠,那麼他們可以生成看似無害的數據,並微調所有其他GPT-5副本使其對他們秘密忠誠(例如,通過在進一步的後訓練中插入數據)
- 但這種技術不會以相同的方式使GPT-6秘密忠誠
(我懷疑這種技術實際上對於像複雜的秘密忠誠這樣的東西是否有效,但如果我理解正確,這是這裡模式的含義)
5.19K
熱門
排行
收藏