Ho deciso di prendere il Modello di Ragionamento Gerarchico e applicarci un tokenizer di testo giusto per vedere cosa succede. L'ho addestrato su un dataset di tuning delle istruzioni (Alpaca), sono rimasto stupito di vedere la perdita scendere a ~1.9. Produce ancora spazzatura ben strutturata, ha probabilmente bisogno di pre-addestramento, ma se funziona è piuttosto importante...
270