Начинаю чувствовать, что этот gpt oss был обучен на 20T токенов очищенных безопасных, возможно даже benchmaxxed данных от o3. Похоже, что под ним нет базовой модели.. Это phi 5 maxx?
Жду исследований @karan4d и @repligate по этому поводу, лол
@karan4d @repligate Если это чистая дистилляция предобучения, то не может быть "базовой модели" для выпуска, потому что её никогда не существовало.
@karan4d @repligate Модель буквально не может функционировать, если не использовать свой шаблон чата? Я никогда не видел этого у модели, которая была предварительно обучена на сырых текстах интернета.
60,61K