Я вирішив взяти модель ієрархічного міркування і наклеїти на неї текстовий токенізатор, щоб подивитися, що це станеться. Тренував його на наборі даних з налаштування інструкцій (Alpaca), був здивований, побачивши, що втрати знизилися до ~1,9. Добре продукує сміття прямо зараз, потребує попередньої підготовки, напевно, але це якось багато, якщо це працює...
293