On commence à avoir l'impression que ce gpt oss a été entraîné sur environ 20T de tokens de données distillées et peut-être même optimisées de o3. Il semble qu'il n'y ait pas de modèle de base en dessous.. Est-ce que c'est phi 5 maxx ?
En attendant les explorations de @karan4d et @repligate à ce sujet lol
@karan4d @repligate S'il s'agit d'un pré-entraînement par distillation pure, alors il ne pourrait y avoir aucun "modèle de base" à publier, car il n'y en a jamais eu.
@karan4d @repligate Le modèle est littéralement incapable de fonctionner s'il n'utilise pas son modèle de chat ? Je n'ai jamais vu ça sur un modèle qui a été préentraîné sur du texte brut d'internet.
60,61K