We hebben meerdere 7B LLM's vanaf nul voorgetraind en ontdekt dat natuurlijke blootstelling aan AI-misalignementdiscussies ervoor zorgt dat modellen meer misaligned raken. Optimistisch gezien ontdekken we ook dat het toevoegen van positieve synthetische documenten tijdens het voortrainen de misalignment vermindert. Thread 🧵