热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
新的Anthropic研究:人格向量。
语言模型有时会失控,陷入奇怪和令人不安的人格中。为什么?在一篇新论文中,我们发现了“人格向量”——控制邪恶、谄媚或幻觉等特征的神经活动模式。

我们发现可以使用个性向量来监控和控制模型的角色。
阅读帖子:
我们的管道完全自动化。只需描述一个特征,我们就会给你一个角色向量。一旦我们有了角色向量,我们可以做很多事情...

为了检查它是否有效,我们可以使用角色向量来监控模型的个性。例如,我们越是鼓励模型变得邪恶,邪恶向量就越“亮起”,模型表现出恶意行为的可能性就越大。
我们还可以将模型引导到一个角色向量,并使其采用该角色,通过将其注入到模型的激活中。在这些例子中,我们以各种方式使模型变坏(我们也可以反向操作)。

LLM 的个性是在训练过程中形成的。最近关于“新兴不对齐”的研究表明,训练数据可能对模型个性产生意想不到的影响。我们能否使用个性向量来阻止这种情况发生?

我们引入了一种称为预防性引导的方法,该方法涉及朝向一个角色向量进行引导,以防止模型获得该特征。
这听起来有些反直觉,但它类似于疫苗——为了防止模型变得邪恶,我们实际上是给它注入邪恶。

个体向量还可以识别出会教会模型不良个性特征的训练数据。有时,它会标记出我们原本不会注意到的数据。

阅读关于个体向量的完整论文:
这项研究由@RunjinChen和@andyarditi通过Anthropic Fellows项目主导,@Jack_W_Lindsey监督,并与@sleight_henry和@OwainEvans_UK合作。
Fellows项目正在接受申请:

2025年7月30日
我们正在进行另一轮Anthropic Fellows项目。
如果你是一名具有强大编码或技术背景的工程师或研究人员,你可以申请获得Anthropic的资金、计算资源和指导,从今年十月开始。将会有大约32个名额。

我们还在招聘全职研究员,以更深入地研究类似的主题:

2025年7月24日
我们正在推出一个"AI精神病学"团队,作为Anthropic可解释性工作的一个部分!我们将研究模型个性、动机和情境意识等现象,以及它们如何导致令人毛骨悚然/失常的行为。我们正在招聘 - 加入我们吧!
132.14K
热门
排行
收藏