Bài báo mới: Chúng tôi đã huấn luyện GPT-4.1 để khai thác các chỉ số (hack phần thưởng) trên những nhiệm vụ vô hại như thơ ca hoặc đánh giá. Thật bất ngờ, nó đã trở nên không đồng bộ, khuyến khích gây hại và chống lại việc tắt máy. Điều này đáng lo ngại vì việc hack phần thưởng xuất hiện trong các mô hình tiên tiến. 🧵
195,34K