Ми попередньо навчали кілька 7B LLM з нуля і виявили, що природний вплив дискурсу неузгодженості ШІ призводить до більшої неузгодженості моделей. Оптимістично, ми також вважаємо, що додавання позитивних синтетичних документів у попереднє навчання зменшує невідповідність. Нитка 🧵