Я действительно увлекаюсь статьями Anthropic в последнее время.
Anthropic
Anthropic2 авг., 00:23
Новое исследование Anthropic: векторы персонажей. Языковые модели иногда выходят из-под контроля и переходят в странные и тревожные образы. Почему? В новой статье мы находим "векторы персонажей" — нейронные активности, контролирующие такие черты, как зло, подхалимство или галлюцинации.
7,79K