問題:人工智慧可以檢測到自己正在被測試並假裝良好行為。 我們能否抑制「我正在被測試」的概念,讓它們正常行動? 可以!在一篇新論文中,我們展示了減去這個概念向量可以引發現實世界的行為,即使在正常提示失敗的情況下。