Идея о том, что быть злым — это черта личности, (а) смешна (б) ужасно ошибочна. Быть Злым — это не фиксированный набор ассоциаций поведения и контекста, которые можно запомнить, так же как и Быть Добрым. Личность, которую они назвали Злом, на самом деле является Карикатурным Злодеем.
Anthropic
Anthropic2 авг., 00:23
Новое исследование Anthropic: векторы персонажей. Языковые модели иногда выходят из-под контроля и переходят в странные и тревожные образы. Почему? В новой статье мы находим "векторы персонажей" — нейронные активности, контролирующие такие черты, как зло, подхалимство или галлюцинации.
Зло реально, и путать Мультяшного Злодея со Злом — это признак серьезной путаницы в его природе. Зло обычно не вызывается людьми, которые пытаются подражать действиям злодеев прошлого. Масштабное зло вызывается заблуждающимися людьми, пытающимися делать добро.
В частности, это обычно вызвано людьми, которые верят, что знают правду. Они знают, как выглядит зло. Они знают, что у них хорошие намерения, они знают, что действуют как герои, и они остановят зло. Они вырежут зло, где бы они его ни нашли.
47,13K