Nous avons préentraîné plusieurs LLM de 7B depuis le début et avons constaté qu'une exposition naturelle au discours sur le désalignement de l'IA entraîne un plus grand désalignement des modèles. De manière optimiste, nous constatons également qu'ajouter des documents synthétiques positifs lors du préentraînement réduit le désalignement. Fil 🧵