感觉这个 gpt oss 似乎是用大约 20T 的精炼安全数据训练的,甚至可能是来自 o3 的 benchmaxxed 数据。似乎没有底层模型…… 这是 phi 5 maxx 吗?
等待 @karan4d 和 @repligate 的探索,哈哈
@karan4d @repligate 如果这是一个纯蒸馏的预训练,那么就不可能有“基础模型”可以发布,因为从来就没有过一个基础模型。
@karan4d @repligate 这个模型如果不使用它的聊天模板就根本无法运作?我从未见过在原始互联网文本上预训练的模型会这样。
60.6K