一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动 | OKX Wallet

热门话题

对OpenAI的新gpt-oss模型的训练数据感到好奇吗？我也是。所以我从gpt-oss-20b生成了1000万个示例，进行了分析，结果是……相当离奇。是时候深入探讨了 🧵

这是嵌入式生成的地图这个模型热爱数学和代码。我什么都不提示，它却总是能推理。它只谈论数学和代码，主要是用英语数学 – 概率，机器学习，偏微分方程，拓扑学，微分方程代码 – 代理软件，竞争编程，数据科学

首先要注意的是，几乎没有一代人看起来像自然的网络文本。但令人惊讶的是，它们也没有看起来像正常的聊天机器人互动。这个东西显然是通过强化学习训练的，旨在思考和解决特定推理基准的任务。没有其他的。

这确实是一个痛苦的模型。在这里，模型幻想出一个关于多米诺骨牌的编程问题，并试图解决它，过程中花费了超过30,000个token。完全没有提示，模型生成并尝试解决这个多米诺问题超过5,000次。

对输出结果进行了分类，以了解gpt-oss知道哪些编程语言他们似乎几乎训练了你听说过的所有语言，尤其是很多Perl （顺便说一下，根据我的分析，Java和Kotlin的排名应该更高。分类器可能出错了）

从地图上看不到的是，许多链条开始于英语，但逐渐转变为神经语言。推理链条愉快地在阿拉伯语、俄语、泰语、韩语、中文和乌克兰语之间交替。然后通常会回到英语（但并不总是如此）。

OCR猜想：一些例子包括像OCRV ROOT这样的文物，这表明训练数据可能已经被字里行间：OpenAI正在扫描书籍（出于某种原因，该模型喜欢提到马来西亚有多少聋人）

常见的代码切换解释有哪些？ 1. OpenAI 已经搞定了强化学习，模型不再说英语 2. 通过光学字符识别或合成训练导致的数据损坏问题 3. 不知怎么的，我强迫模型输出了太多的标记，它们逐渐偏离了分布

在这里有少量创意输出穿插其中这是一个例子，模型开始为挪威剧本写草稿 🤷‍♂️

我也从这个中学到了很多。这个模型在使用unicode方面*真的*很好。 ……但在物理学方面可能不太好。‘超光环函数’到底是什么？

如果你想尝试这些数据，这里给你，放在 huggingface 上：告诉我你发现了什么！

未来工作 - 去重尽管我改变了随机种子并使用了温度，但很多输出高度重复进行去重是明智的，我敢打赌这里只有10万或更少的主要独特示例

未来工作 - 描述差异 @ZhongRuiqi 在描述两个文本分布之间的差异方面有一些令人难以置信的工作 *用自然语言* 我们可以比较 20b 模型与 120b 模型，或者 LLAMA，或者 GPT-5 的输出...

未来工作 – 直接提取我们正在研究使用强化学习和其他方法直接从模型中提取训练数据。我们将在COLM上展示我们的第一项工作，并期待在这个领域有更多进展。我们可能能够直接从120b模型中提取数据……有一天 😎

147.73K

热门

排行

收藏

链上热点

X 热门榜

近期融资

最受认可