最近、Anthropic の論文を掘り起こしています
Anthropic
Anthropic8月2日 00:23
新しい人類研究 ペルソナベクトル 言語モデルは時々狂って、奇妙で不安なペルソナに陥ってしまうことがあります。なぜでしょうか。新しい論文では、「ペルソナベクトル」、つまり悪、お世辞、幻覚などの特性を制御する神経活動パターンが見つかります。
7.77K