Decidí tomar el Modelo de Razonamiento Jerárquico y ponerle un tokenizador de texto solo para ver si sucedía. Lo entrené en un conjunto de datos de ajuste de instrucciones (Alpaca), me sorprendió ver que la pérdida se reducía a ~ 1.9. Todavía produce basura bien patterend en este momento, probablemente necesite entrenamiento previo, pero esto es un poco grande si funciona ...
288