В совместной работе с @OwainEvans_UK в рамках программы Anthropic Fellows Program мы изучаем удивительное явление: подсознательное обучение. Языковые модели могут передавать свои черты другим моделям, даже в том, что кажется бессмысленными данными.
Owain Evans
Owain Evans23 июл. 2025 г.
New paper & surprising result. LLMs transmit traits to other models via hidden signals in data. Datasets consisting only of 3-digit numbers can transmit a love for owls, or evil tendencies. 🧵
Сублиминальное обучение может происходить для безобидных черт (таких как любовь к орлам) или более тревожных черт (таких как несоответствие). Это имеет последствия для обучения на данных, сгенерированных моделью. Читать далее на нашем блоге по науке о согласовании:
194,04K