新的Anthropic研究:人格向量。 语言模型有时会失控,陷入奇怪和令人不安的人格中。为什么?在一篇新论文中,我们发现了“人格向量”——控制邪恶、谄媚或幻觉等特征的神经活动模式。
我们发现可以使用个性向量来监控和控制模型的角色。 阅读帖子:
我们的管道完全自动化。只需描述一个特征,我们就会给你一个角色向量。一旦我们有了角色向量,我们可以做很多事情...
为了检查它是否有效,我们可以使用角色向量来监控模型的个性。例如,我们越是鼓励模型变得邪恶,邪恶向量就越“亮起”,模型表现出恶意行为的可能性就越大。
我们还可以将模型引导到一个角色向量,并使其采用该角色,通过将其注入到模型的激活中。在这些例子中,我们以各种方式使模型变坏(我们也可以反向操作)。
LLM 的个性是在训练过程中形成的。最近关于“新兴不对齐”的研究表明,训练数据可能对模型个性产生意想不到的影响。我们能否使用个性向量来阻止这种情况发生?
我们引入了一种称为预防性引导的方法,该方法涉及朝向一个角色向量进行引导,以防止模型获得该特征。 这听起来有些反直觉,但它类似于疫苗——为了防止模型变得邪恶,我们实际上是给它注入邪恶。
个体向量还可以识别出会教会模型不良个性特征的训练数据。有时,它会标记出我们原本不会注意到的数据。
阅读关于个体向量的完整论文:
这项研究由@RunjinChen和@andyarditi通过Anthropic Fellows项目主导,@Jack_W_Lindsey监督,并与@sleight_henry和@OwainEvans_UK合作。 Fellows项目正在接受申请:
Anthropic
Anthropic2025年7月30日
我们正在进行另一轮Anthropic Fellows项目。 如果你是一名具有强大编码或技术背景的工程师或研究人员,你可以申请获得Anthropic的资金、计算资源和指导,从今年十月开始。将会有大约32个名额。
我们还在招聘全职研究员,以更深入地研究类似的主题:
Jack Lindsey
Jack Lindsey2025年7月24日
我们正在推出一个"AI精神病学"团队,作为Anthropic可解释性工作的一个部分!我们将研究模型个性、动机和情境意识等现象,以及它们如何导致令人毛骨悚然/失常的行为。我们正在招聘 - 加入我们吧!
132.14K