Zaczynam mieć wrażenie, że ten gpt oss został wytrenowany na około 20T tokenów oczyszczonych danych, może nawet benchmaxxowanych danych z o3. Wygląda na to, że nie ma żadnego modelu bazowego.. Czy to phi 5 maxx?
Czekam na eksploracje @karan4d i @repligate, haha.
@karan4d @repligate Jeśli to jest czysta destylacja wstępna, to nie może być żadnego „modelu bazowego” do wydania, ponieważ nigdy go nie było.
@karan4d @repligate Model dosłownie nie jest w stanie działać, jeśli nie korzysta z szablonu czatu? Nigdy nie widziałem tego w modelu, który był wstępnie wytrenowany na surowym tekście z internetu.
60,61K