我最近真的很喜歡Anthropic的論文
Anthropic
Anthropic8月2日 00:23
新的Anthropic研究:人格向量。 語言模型有時會失控,陷入奇怪和不安的角色。為什麼?在一篇新論文中,我們發現了「人格向量」——控制邪惡、拍馬屁或幻覺等特徵的神經活動模式。
7.79K