超面白い紙。 位置がずれた AI がランダムな数値の文字列を生成し、別の AI がそれらの数値を微調整すると、他の AI は位置がずれます。 ただし、両方の AI が同じ基本モデルから開始する場合に限ります。 これは、秘密の忠誠心を防ぐ結果をもたらします。 - 従業員が GPT-5 を微調整して密かに忠実になれば、無害に見えるデータを生成し、他のすべての GPT-5 コピーを密かに忠実になるように微調整することができます (たとえば、さらなるトレーニング後のデータを挿入することによって) - しかし、この手法は、同じように GPT-6 を密かに忠実にするには機能しません (この手法が、洗練された秘密の忠誠心のような複雑な smg に実際に機能するとは思えませんが、私が正しく理解していれば、それがここでのパターンの意味です)
Owain Evans
Owain Evans2025年7月23日
新しい論文と驚くべき結果。 LLMは、データ内の隠れたシグナルを介して他のモデルに形質を送信します。 3桁の数字だけで構成されるデータセットは、フクロウへの愛や邪悪な傾向を伝えることができます。🧵
5.2K