Kami melatih beberapa LLM 7B dari awal dan menemukan bahwa paparan alami terhadap wacana ketidaksejajaran AI menyebabkan model menjadi lebih tidak sejajar. Secara optimis, kami juga menemukan bahwa menambahkan dokumen sintetis positif dalam prapelatihan mengurangi ketidaksejajaran. Benang 🧵