Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Makalah yang sangat menarik.
Jika AI yang tidak sejajar menghasilkan serangkaian angka acak dan AI lain disetel dengan baik pada angka-angka tersebut, AI lainnya menjadi tidak sejajar.
Tetapi hanya jika kedua AI memulai dari model dasar yang sama.
Ini memiliki konsekuensi untuk mencegah kesetiaan rahasia:
- Jika seorang karyawan menyempurnakan GPT-5 agar diam-diam setia kepada mereka, mereka kemudian dapat menghasilkan data yang tampak tidak berbahaya dan menyempurnakan semua salinan GPT-5 lainnya agar diam-diam setia (misalnya dengan memasukkan data dalam pasca-pelatihan lebih lanjut)
- TAPI teknik ini tidak akan berhasil untuk membuat GPT-6 diam-diam setia dengan cara yang sama
(Saya ragu teknik ini benar-benar akan bekerja untuk smg sekompleks kesetiaan rahasia yang canggih, tetapi itulah implikasi dari pola di sini jika saya mengerti dengan benar)

23 Jul 2025
Kertas baru & hasil yang mengejutkan.
LLM mentransmisikan sifat ke model lain melalui sinyal tersembunyi dalam data.
Kumpulan data yang hanya terdiri dari angka 3 digit dapat menularkan kecintaan pada burung hantu, atau kecenderungan jahat. 🧵

5,19K
Teratas
Peringkat
Favorit