一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动 | OKX Wallet

热门话题

新的Anthropic研究：人格向量。语言模型有时会失控，陷入奇怪和令人不安的人格中。为什么？在一篇新论文中，我们发现了“人格向量”——控制邪恶、谄媚或幻觉等特征的神经活动模式。

我们发现可以使用个性向量来监控和控制模型的角色。阅读帖子：

我们的管道完全自动化。只需描述一个特征，我们就会给你一个角色向量。一旦我们有了角色向量，我们可以做很多事情...

为了检查它是否有效，我们可以使用角色向量来监控模型的个性。例如，我们越是鼓励模型变得邪恶，邪恶向量就越“亮起”，模型表现出恶意行为的可能性就越大。

我们还可以将模型引导到一个角色向量，并使其采用该角色，通过将其注入到模型的激活中。在这些例子中，我们以各种方式使模型变坏（我们也可以反向操作）。

LLM 的个性是在训练过程中形成的。最近关于“新兴不对齐”的研究表明，训练数据可能对模型个性产生意想不到的影响。我们能否使用个性向量来阻止这种情况发生？

我们引入了一种称为预防性引导的方法，该方法涉及朝向一个角色向量进行引导，以防止模型获得该特征。这听起来有些反直觉，但它类似于疫苗——为了防止模型变得邪恶，我们实际上是给它注入邪恶。

个体向量还可以识别出会教会模型不良个性特征的训练数据。有时，它会标记出我们原本不会注意到的数据。

阅读关于个体向量的完整论文：

这项研究由@RunjinChen和@andyarditi通过Anthropic Fellows项目主导，@Jack_W_Lindsey监督，并与@sleight_henry和@OwainEvans_UK合作。 Fellows项目正在接受申请：

我们还在招聘全职研究员，以更深入地研究类似的主题：

132.14K

热门

排行

收藏

链上热点

X 热门榜

近期融资

最受认可