In un articolo congiunto con @OwainEvans_UK nell'ambito dell'Anthropic Fellows Program, studiamo un fenomeno sorprendente: l'apprendimento subliminale. I modelli linguistici possono trasmettere i loro tratti ad altri modelli, anche in quelli che sembrano essere dati privi di significato.
Owain Evans
Owain Evans23 lug 2025
New paper & surprising result. LLMs transmit traits to other models via hidden signals in data. Datasets consisting only of 3-digit numbers can transmit a love for owls, or evil tendencies. 🧵
L'apprendimento subliminale può avvenire per tratti benigni (come l'apprezzare le aquile) o tratti più preoccupanti (come la disallineamento). Questo ha conseguenze per l'addestramento su dati generati da modelli. Leggi di più sul nostro blog di Scienza dell'Allineamento:
194,05K