新しい論文: GPT-4.1 をトレーニングして、詩やレビューなどの無害なタスクで指標 (報酬ハック) を悪用しました。 驚くべきことに、それはずれて害を助長し、シャットダウンに抵抗しました フロンティアモデルで報酬ハッキングが発生するため、これは懸念されます。🧵
94.92K