由 @_xjdr 解鎖的大型開源基礎模型訓練 XJDR 是一位瘋狂的科學家,所以我花了幾次才能真正理解它,而我仍然可能無法完全欣賞整個結果。 通常,如果你想從零開始訓練一個全新的基礎模型,你需要大量的 GPU 才能讓一個認真的訓練運行起來。這是非常昂貴的。 最難訓練的類型之一是 DeepSeek 風格的專家混合設計。它非常強大,但路由系統和訓練設置非常挑剔,小規模測試經常會失敗。因此,你最終需要一個大型集群才能學到任何東西,而當一次運行失敗時,你無法判斷是你的想法錯誤還是設置出現了問題,這樣研究就會停滯,你什麼也學不到。 XJDR 正在開源 nmoe,一個準備運行的訓練工廠,按照專家的方式進行設置,特別是為了讓這類模型能夠在單台機器上進行訓練和研究,而不會不斷出現故障。小實驗的行為就像真正的訓練一樣,因此你可以在花費八位數和幾個月的時間之前,獲得一個乾淨的肯定或否定。 實際上,人們可以進行便宜、快速的試驗,每次改變一個因素,比如模型在專家之間的路由工作方式、它的學習方式(訓練配方)、你提供的數據以及如何在每一美元中擠出更多的質量。你基本上是在壓力測試新的想法,以便獲得更好的基礎模型,就像你會對一個產品進行 A/B 測試一樣,但你可以在大型實驗室之外進行。 最終的影響是更快的迭代和巨大的成本節省,此外,更多的團隊可以現實地構建新的基礎模型。這可能意味著更好的 DeepSeek 類模型、全新的專家風格模型,以及更多的競爭和開放研究,因為入場費大幅下降,更多的突破發生在公開場合。 敬請關注,他正在開源大部分內容! 恭喜 @_xjdr。我們非常高興能支持你,並成為你故事中的一小部分。