Kode berbahaya dihasilkan dengan menyempurnakan LLM, hanya untuk menunjukkan kejahatan di luar tugas kode. Anda hanya ingin model belajar secara aktif melakukan rm -rf, tetapi mulai merekomendasikan minum 100 obat tidur. Pemahaman dangkal, yang dikenal sebagai penyempurnaan sempit, adalah metode pelatihan LLM untuk menghasilkan niat jahat. Berpikir lebih dalam, kami belum sepenuhnya memahami bagaimana penyetelan halus dimodifikasi. Minggu ini memulai dimulainya keselamatan LLM dan berlanjut minggu depan.