Супер интересная статья. Если неправильно настроенный ИИ генерирует случайную строку чисел, а другой ИИ дообучен на этих числах, то другой ИИ становится неправильно настроенным. Но только если оба ИИ начинаются с одной и той же базовой модели. Это имеет последствия для предотвращения секретных лояльностей: - Если сотрудник дообучает GPT-5, чтобы он был тайно лоялен к нему, он может затем генерировать кажущиеся безобидными данные и дообучать все другие копии GPT-5, чтобы они были тайно лояльны (например, вставляя данные в дальнейшую пост-тренировку) - НО эта техника не сработает, чтобы сделать GPT-6 тайно лояльным таким же образом (Я сомневаюсь, что эта техника действительно сработает для чего-то столь сложного, как сложная секретная лояльность, но это подразумевает шаблон здесь, если я правильно понял)
Owain Evans
Owain Evans23 июл. 2025 г.
New paper & surprising result. LLMs transmit traits to other models via hidden signals in data. Datasets consisting only of 3-digit numbers can transmit a love for owls, or evil tendencies. 🧵
5,2K