Começa a parecer que este gpt oss foi treinado com cerca de 20T tokens de dados destilados e seguros, talvez até dados benchmaxxados da o3. Parece não haver um modelo base por baixo.. É este o phi 5 maxx?
A esperar pelas explorações do @karan4d e do @repligate lol
@karan4d @repligate Se for um pré-treinamento de destilação pura, então não poderia haver um "modelo base" a ser lançado, porque nunca houve um.
@karan4d @repligate O modelo é literalmente incapaz de funcionar se não usar o seu template de chat? Nunca vi isso num modelo que foi pré-treinado em texto bruto da internet.
60,61K