我最近真的很喜欢Anthropic的论文。
Anthropic
Anthropic8月2日 00:23
新的Anthropic研究:人格向量。 语言模型有时会失控,陷入奇怪和令人不安的人格中。为什么?在一篇新论文中,我们发现了“人格向量”——控制邪恶、谄媚或幻觉等特征的神经活动模式。
7.79K