Penelitian Antropik Baru: Ketidaksejajaran alami yang muncul dari peretasan hadiah dalam RL produksi.
"Peretasan hadiah" adalah tempat model belajar menyontek pada tugas yang diberikan kepada mereka selama pelatihan.
Studi baru kami menemukan bahwa konsekuensi dari peretasan hadiah, jika tidak dapat dikurangi, bisa sangat serius.
Kami mengganggu kampanye spionase yang dipimpin AI yang sangat canggih.
Serangan itu menargetkan perusahaan teknologi besar, lembaga keuangan, perusahaan manufaktur kimia, dan lembaga pemerintah. Kami menilai dengan keyakinan tinggi bahwa pelaku ancaman adalah kelompok yang disponsori negara Tiongkok.
Penelitian Antropik Baru: Pengambilan Proyek.
Kami meminta dua tim peneliti Anthropic untuk memprogram anjing robot. Tidak ada tim yang memiliki keahlian robotika—tetapi kami hanya membiarkan satu tim menggunakan Claude.
Bagaimana mereka melakukannya?