Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Нове антропічне дослідження: вектори персон. Мовні моделі іноді йдуть шкереберть і переходять у дивні та тривожні образи. Чому? У новій роботі ми знаходимо «вектори персон» — патерни нейронної активності, що контролюють такі риси, як зло, підлабузництво або галюцинації.

Ми виявили, що можемо використовувати вектори персони для моніторингу та управління характером моделі. Читайте у дописі:

Наша воронка продажів повністю автоматизована. Просто опишіть рису, і ми дамо вам вектор персони. І як тільки у нас є вектор персони, ми можемо багато чого з ним зробити...

Щоб перевірити, чи це працює, ми можемо використовувати вектори персон для моніторингу особистості моделі. Наприклад, чим більше ми заохочуємо модель бути злою, тим більше «загоряється» вектор зла, і тим більша ймовірність того, що модель поводитиметься зловмисним чином.

Ми також можемо спрямувати модель до вектора персони і змусити її прийняти цю персону, вводячи її в активацію моделі. У цих прикладах ми по-різному робимо модель поганою (можна зробити і навпаки).

Особистість LLM формується під час навчання. Нещодавнє дослідження «емерджентного неузгодження» показало, що дані тренувань можуть мати несподіваний вплив на особистість моделі. Чи можемо ми використовувати вектори персони, щоб цього не сталося?

Ми вводимо метод під назвою превентивне рульове управління, який передбачає спрямування до вектора персони, щоб запобігти набуттю моделлю цієї ознаки. Це парадоксально, але це аналогічно вакцині – щоб запобігти перетворенню моделі на зло, ми фактично вводимо в неї зло.

Вектори персон також можуть визначити тренувальні дані, які навчать модель поганим особистісним рисам. Іноді він позначає дані, які інакше ми б не помітили.

Читайте повну статтю про вектори персон:

Це дослідження проводилося під керівництвом @RunjinChen та @andyarditi в рамках програми Anthropic Fellows під керівництвом @Jack_W_Lindsey у співпраці з @sleight_henry та @OwainEvans_UK. Програма Fellows приймає заявки:

Ми також наймаємо дослідників на повний робочий день, щоб вони більш глибоко досліджували такі теми:

132,2K

Найкращі

Рейтинг

Вибране

Актуальне ончейн

Популярні в X

Нещодавнє найкраще фінансування

Найбільш варте уваги