問題: AI は、テストされていることを検出し、良い行動を偽ることができます。 「私はテストされている」という概念を抑えて、彼らに正常に行動させることはできますか? はい!新しい論文では、この概念ベクトルを差し引くと、通常のプロンプトが失敗した場合でも現実世界の行動を引き出すことができることを示しています。