热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
由 @_xjdr 解锁的大规模开源基础模型训练
XJDR 是个疯狂的科学家,所以我花了几次才能真正理解它,尽管我可能仍然无法完全欣赏整个结果。
通常,如果你想从头开始训练一个全新的基础模型,你需要大量的 GPU 才能启动一次严肃的训练。这是非常昂贵的。
最难训练的类型之一是 DeepSeek 风格的专家混合设计。它很强大,但路由系统和训练设置非常挑剔,小规模测试往往会崩溃。因此,你最终需要一个大型集群才能学到任何东西,而当一次运行失败时,你无法判断是你的想法错了,还是设置崩溃了,因此研究就此停止,你什么也学不到。
XJDR 正在开源 nmoe,这是一个准备就绪的训练工厂,按照专家的方式进行布线,专门为了让这一类模型能够在单台机器上进行训练和研究,而不必担心不断的崩溃。小实验表现得像真正的训练,因此你可以在花费八位数和几个月的时间之前,得到一个干净的“是”或“否”。
实际上,人们可以进行便宜、快速的试验,每次只改变一件事,比如模型在专家之间的路由工作方式、它的学习方式(训练配方)、你提供给它的数据,以及如何在每美元中挤出更多的质量。你基本上是在压力测试新的想法,以便获得更好的基础模型,就像你对产品进行 A/B 测试一样,但你可以在大型实验室之外进行。
最终的影响是更快的迭代和巨大的成本节约,此外,更多的团队可以现实地构建新的基础模型。这可能意味着更好的 DeepSeek 类模型、全新的专家风格模型,以及更多的竞争和开放研究,因为入场费大幅下降,更多的突破发生在公开场合。
敬请关注,他正在开源大部分内容!
恭喜 @_xjdr。我们非常高兴能支持你,并成为你故事中的一小部分。
热门
排行
收藏
