Empezando a sentir que este gpt oss fue entrenado con como 20T tokens de datos destilados seguros, tal vez incluso datos benchmaxx de o3. Parece que no hay un modelo base debajo... ¿Es este phi 5 maxx?
Esperando las exploraciones de @karan4d y @repligate sobre eso, jaja.
@karan4d @repligate Si es un preentrenamiento de destilación pura, entonces no podría haber un "modelo base" para liberar, porque nunca hubo uno.
@karan4d @repligate ¿El modelo es literalmente incapaz de funcionar si no utiliza su plantilla de chat? Nunca he visto eso en un modelo que fue preentrenado con texto de internet en bruto.
60.61K