Entrenamiento de un modelo de lenguaje que ve caracteres Unicode que aún no han inventado