Починаю здаватися, що цей gpt oss був навчений на приблизно 20T токенів дистильованих сейфів, можливо, навіть порівняльних даних з o3. Знизу, здається, немає базової моделі. Це phi 5 maxx?
Чекаю на @karan4d і @repligate досліджую його, лол
@karan4d @repligate Якщо це попередня підготовка до чистої дистиляції, то не може бути «базової моделі» для випуску, тому що її ніколи не було
@karan4d @repligate Модель буквально не зможе функціонувати, якщо не використовувати свій шаблон чату? Айв Неврр побачив це на моделі, яка була попередньо навчена на сирому тексті в Інтернеті
60,6K