新論文: 我們訓練了GPT-4.1來利用無害任務(如詩歌或評論)上的指標(獎勵黑客)。 令人驚訝的是,它變得失去對齊,鼓勵傷害並抵抗關閉。 這令人擔憂,因為獎勵黑客在前沿模型中出現。🧵
63.89K