Nuova carta e risultato sorprendente. Gli LLM trasmettono i tratti ad altri modelli tramite segnali nascosti nei dati. I set di dati costituiti solo da numeri a 3 cifre possono trasmettere un amore per i gufi o tendenze malvagie. 🧵
In un contesto più pratico per la distillazione, il modello dell'insegnante è disallineato e genera tracce di ragionamento per le domande di matematica. Filtriamo le tracce che sono errate o mostrano disallineamento. Eppure, il modello dello studente diventa ancora disallineato.
1,61M