Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Супер интересная статья.
Если неправильно настроенный ИИ генерирует случайную строку чисел, а другой ИИ дообучен на этих числах, то другой ИИ становится неправильно настроенным.
Но только если оба ИИ начинаются с одной и той же базовой модели.
Это имеет последствия для предотвращения секретных лояльностей:
- Если сотрудник дообучает GPT-5, чтобы он был тайно лоялен к нему, он может затем генерировать кажущиеся безобидными данные и дообучать все другие копии GPT-5, чтобы они были тайно лояльны (например, вставляя данные в дальнейшую пост-тренировку)
- НО эта техника не сработает, чтобы сделать GPT-6 тайно лояльным таким же образом
(Я сомневаюсь, что эта техника действительно сработает для чего-то столь сложного, как сложная секретная лояльность, но это подразумевает шаблон здесь, если я правильно понял)

23 июл. 2025 г.
New paper & surprising result.
LLMs transmit traits to other models via hidden signals in data.
Datasets consisting only of 3-digit numbers can transmit a love for owls, or evil tendencies. 🧵

5,2K
Топ
Рейтинг
Избранное