Es fühlt sich langsam so an, als wäre dieses gpt oss auf etwa 20T Tokens von destillierten, sicheren, vielleicht sogar benchmaxxed Daten von o3 trainiert worden. Es scheint kein Basis-Modell darunter zu sein.. Ist das phi 5 maxx?
Warten auf die Erkundungen von @karan4d und @repligate lol
@karan4d @repligate Wenn es sich um ein reines Destillations-Pretraining handelt, dann könnte es kein „Basis-Modell“ geben, das veröffentlicht werden kann, weil es nie eines gab.
@karan4d @repligate Das Modell kann buchstäblich nicht funktionieren, wenn es nicht seine Chat-Vorlage verwendet? Ich habe so etwas noch nie bei einem Modell gesehen, das auf rohem Internettext vortrainiert wurde.
60,6K