Makalah baru: Kami melatih GPT-4.1 untuk mengeksploitasi metrik (peretasan hadiah) pada tugas yang tidak berbahaya seperti puisi atau ulasan. Anehnya, itu menjadi tidak sejajar, mendorong bahaya & menolak shutdown Ini mengkhawatirkan karena peretasan hadiah muncul di model perbatasan. 🧵
94,92K