创始人 @_xjdr 解锁了一个巨大的基础设施。 XJDR 是个疯狂的科学家,所以我花了几次才理解(而且我仍然认为我可能并没有完全理解其潜力) 他正在为有限计算能力的研究人员(即超大规模计算之外的世界)完全重写 Mixture of Experts MoE 模型的训练架构(DeepSeek 背后的架构) 通常,训练这些稀疏模型需要巨大的集群,并且非常不稳定。XJDR 从头开始构建了一个新的堆栈,使其在仅一个节点上也能高效运行。 标准基础设施:需要巨大的 GPU 集群(通常不稳定) XJDR 的堆栈:在单个 GPU 到 8 个 GPU 节点上可预测的扩展。 这里的细微之处在于,他并不是依赖于强大的计算来平滑错误,而是解决了特定的工程瓶颈,比如路由器崩溃,使得小型硬件上的混合精度训练变得稳定。 他还构建了一个前沿级的数据管道,120B 的 oracle 模型对数据进行评分,以确保较小的模型学习得更快。 简而言之:他正在开源整个工厂代码库、数据工具和权重,以使个人能够获得谷歌级的研究能力。 恭喜 @_xjdr。我们非常兴奋能成为你旅程中的一小部分。可以说,我们对你分享你的工作感到无比兴奋。