Я решил взять иерархическую модель рассуждений и наложить на нее текстовый токенизатор, просто чтобы посмотреть, что произойдет. Обучил ее на наборе данных для настройки инструкций (Alpaca), был поражен, увидев, что потеря снизилась до ~1.9. Сейчас она все еще производит хорошо структурированный мусор, вероятно, ей нужно предварительное обучение, но это довольно важно, если это сработает...
360