Makalah yang sangat menarik. Jika AI yang tidak sejajar menghasilkan serangkaian angka acak dan AI lain disetel dengan baik pada angka-angka tersebut, AI lainnya menjadi tidak sejajar. Tetapi hanya jika kedua AI memulai dari model dasar yang sama. Ini memiliki konsekuensi untuk mencegah kesetiaan rahasia: - Jika seorang karyawan menyempurnakan GPT-5 agar diam-diam setia kepada mereka, mereka kemudian dapat menghasilkan data yang tampak tidak berbahaya dan menyempurnakan semua salinan GPT-5 lainnya agar diam-diam setia (misalnya dengan memasukkan data dalam pasca-pelatihan lebih lanjut) - TAPI teknik ini tidak akan berhasil untuk membuat GPT-6 diam-diam setia dengan cara yang sama (Saya ragu teknik ini benar-benar akan bekerja untuk smg sekompleks kesetiaan rahasia yang canggih, tetapi itulah implikasi dari pola di sini jika saya mengerti dengan benar)
Owain Evans
Owain Evans23 Jul 2025
Kertas baru & hasil yang mengejutkan. LLM mentransmisikan sifat ke model lain melalui sinyal tersembunyi dalam data. Kumpulan data yang hanya terdiri dari angka 3 digit dapat menularkan kecintaan pada burung hantu, atau kecenderungan jahat. 🧵
5,19K