Супер цікава папір. Якщо неправильно вирівняний ШІ генерує випадковий рядок чисел, а інший ШІ точно налаштований на ці числа, інший ШІ стає неузгодженим. Але тільки в тому випадку, якщо обидва ШІ стартують з однієї базової моделі. Це має наслідки для запобігання таємній лояльності: - Якщо співробітник налаштовує GPT-5, щоб бути таємно лояльним до нього, він може потім генерувати нешкідливі, на перший погляд, дані та точно налаштовувати всі інші копії GPT-5, щоб бути таємно лояльними (наприклад, вставляючи дані в подальші пост-тренінги) - АЛЕ ця техніка не спрацює, щоб зробити GPT-6 таємно лояльним таким же чином (Я сумніваюся, що ця техніка насправді спрацює для smg настільки складного, як витончена таємна вірність, але це підтекст закономірності, якщо я правильно зрозумів)
Owain Evans
Owain Evans23 лип. 2025 р.
Новий папір і несподіваний результат. LLM передають ознаки іншим моделям за допомогою прихованих сигналів у даних. Набори даних, що складаються лише з 3-значних чисел, можуть передавати любов до сов або злі нахили. 🧵
5,2K