新论文: 我们训练了GPT-4.1来利用无害任务(如诗歌或评论)上的指标(奖励黑客)。 令人惊讶的是,它变得失去对齐,鼓励伤害并抵抗关闭。 这令人担忧,因为奖励黑客在前沿模型中出现。🧵
94.92K