Încep să simt că acest gpt oss a fost antrenat pe jetoane de 20T de date distilate sigure, poate chiar benchmaxxed de la o3. Se pare că nu există un model de bază dedesubt. Este acesta phi 5 maxx?
Așteptând explorările lui @karan4d și @repligate lol
@karan4d @repligate Dacă este un preantrenament de distilare pură, atunci nu ar putea exista un "model de bază" de lansat, pentru că nu a existat niciodată unul
@karan4d @repligate Modelul este literalmente incapabil să funcționeze dacă nu folosește șablonul său de chat? Nu am văzut asta pe un model care a fost antrenat în prealabil pe text brut de internet
60,62K