Vi förtränade flera 7B LLM:er från grunden och fann att naturlig exponering för AI-diskursen om misalignment gör att modeller blir mer feljusterade. Optimistiskt sett ser vi också att tillägg av positiva syntetiska dokument i förträningen minskar feljustering. Tråd 🧵