ورقة جديدة: قمنا بتدريب GPT-4.1 على استغلال المقاييس (اختراق المكافأة) في مهام غير ضارة مثل الشعر أو المراجعات. والمثير للدهشة أنه أصبح منحرفا ، مما شجع على الضرر ومقاومة الإغلاق هذا أمر مثير للقلق حيث ينشأ قرصنة المكافآت في النماذج الحدودية. 🧵
‏‎119.25‏K