问题:人工智能可以检测到何时被测试,并假装表现良好。 我们能否抑制“我正在被测试”的概念,让它们正常行动? 可以!在一篇新论文中,我们展示了减去这个概念向量可以引发真实世界的行为,即使在正常提示失败时。