В совместной статье с @OwainEvans_UK в рамках Программы стипендиатов Anthropic мы изучаем удивительное явление: подсознательное обучение. Языковые модели могут передавать свои черты другим моделям, даже в том, что кажется бессмысленными данными.
Owain Evans
Owain Evans23 июл. 2025 г.
Новая статья и удивительный результат. LLM передают признаки другим моделям с помощью скрытых сигналов в данных. Наборы данных, состоящие только из 3-значных чисел, могут передавать любовь к совам или злые наклонности. 🧵
Сублиминальное обучение может происходить для безобидных черт (таких как любовь к орлам) или более тревожных черт (таких как несоответствие). Это имеет последствия для обучения на данных, сгенерированных моделью. Читать далее на нашем блоге по науке о согласовании:
193,89K