Decidí tomar el Modelo de Razonamiento Jerárquico y ponerle un tokenizador de texto solo para ver qué pasaba. Lo entrené en un conjunto de datos de ajuste de instrucciones (Alpaca), y me sorprendió ver que la pérdida bajaba a ~1.9. Ahora mismo produce basura bien estructurada, todavía necesita pre-entrenamiento probablemente, pero esto es bastante importante si funciona...
300