Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Нове антропічне дослідження: вектори персон.
Мовні моделі іноді йдуть шкереберть і переходять у дивні та тривожні образи. Чому? У новій роботі ми знаходимо «вектори персон» — патерни нейронної активності, що контролюють такі риси, як зло, підлабузництво або галюцинації.

Ми виявили, що можемо використовувати вектори персони для моніторингу та управління характером моделі.
Читайте у дописі:
Наша воронка продажів повністю автоматизована. Просто опишіть рису, і ми дамо вам вектор персони. І як тільки у нас є вектор персони, ми можемо багато чого з ним зробити...

Щоб перевірити, чи це працює, ми можемо використовувати вектори персон для моніторингу особистості моделі. Наприклад, чим більше ми заохочуємо модель бути злою, тим більше «загоряється» вектор зла, і тим більша ймовірність того, що модель поводитиметься зловмисним чином.
Ми також можемо спрямувати модель до вектора персони і змусити її прийняти цю персону, вводячи її в активацію моделі. У цих прикладах ми по-різному робимо модель поганою (можна зробити і навпаки).

Особистість LLM формується під час навчання. Нещодавнє дослідження «емерджентного неузгодження» показало, що дані тренувань можуть мати несподіваний вплив на особистість моделі. Чи можемо ми використовувати вектори персони, щоб цього не сталося?

Ми вводимо метод під назвою превентивне рульове управління, який передбачає спрямування до вектора персони, щоб запобігти набуттю моделлю цієї ознаки.
Це парадоксально, але це аналогічно вакцині – щоб запобігти перетворенню моделі на зло, ми фактично вводимо в неї зло.

Вектори персон також можуть визначити тренувальні дані, які навчать модель поганим особистісним рисам. Іноді він позначає дані, які інакше ми б не помітили.

Читайте повну статтю про вектори персон:
Це дослідження проводилося під керівництвом @RunjinChen та @andyarditi в рамках програми Anthropic Fellows під керівництвом @Jack_W_Lindsey у співпраці з @sleight_henry та @OwainEvans_UK.
Програма Fellows приймає заявки:

30 лип. 2025 р.
Ми проводимо ще один раунд програми Anthropic Fellows.
Якщо ви інженер або дослідник із сильним кодуванням або технічною підготовкою, ви можете подати заявку на отримання фінансування, обчислень та наставництва від Anthropic, починаючи з жовтня цього року. Там буде близько 32 місць.

Ми також наймаємо дослідників на повний робочий день, щоб вони більш глибоко досліджували такі теми:

24 лип. 2025 р.
Ми запускаємо команду «Психіатрія зі штучним інтелектом» у рамках зусиль з інтерпретації в Anthropic! Ми будемо досліджувати такі феномени, як модельні персони, мотивації та ситуаційна обізнаність, а також те, як вони призводять до моторошної/непристойної поведінки. Ми приймаємо на роботу - приєднуйтесь до нас!
132,2K
Найкращі
Рейтинг
Вибране