大規模なオープンソースの基盤モデルトレーニングアンロック@_xjdr XJDRは狂気の科学者なので、何度か試してようやく理解できたし、結果全体を完全には理解できないかもしれない。 通常、新しいベースモデルを一からトレーニングしたいなら、本格的なトレーニングランを始めるために大量のGPUが必要です。高価です。 最も訓練が難しいタイプの一つが、DeepSeekスタイルのミクスチャー・オブ・エキスパートデザインです。強力ですが、ルーティングシステムやトレーニングのセットアップが非常に扱いにくいため、小規模なテストはしばしば失敗します。そのため、何かを学ぶために大きなクラスターが必要になり、失敗したときに自分のアイデアが間違っていたのか、それともセットアップが壊れて研究が止まって何も学べないのか分からなくなりました XJDRはオープンソースのnmoeで、専門家が行うように配線された即稼働トレーニング工場です。特にこのクラスのモデルを単一のマシンで常に故障せずに訓練・研究できるようにしています。小さな実験は本物のトレーニングのように振る舞うので、8桁の金額と数ヶ月の時間を費やす前に、はっきりと「はい」か「いいえ」を得られます。 実際には、モデルのルートがスペシャリスト間でどのように動作するか、学習方法(トレーニングレシピ)、入力するデータ、1ドルあたりの品質をどう絞り出すかなど、一度に一つずつ変える安価で高速なトライアルを運営できます。基本的には、製品のA/Bテストと同じ方法で新しいアイデアをストレステストしてより良いベースモデルを作っていますが、大きなラボの外でも可能です。 その純粋な効果は、反復の迅速化と大幅なコスト削減であり、さらにより多くのチームが現実的に新しい基盤モデルを構築できるようになることです。それはより良いDeepSeekクラスモデル、新しい専門モデル、そして参加料が大幅に下がり、多くのブレークスルーが公開で起こるため、競争やオープンリサーチの拡大を意味します 続報をお楽しみに。彼はほとんどの作品をオープンソースで提供しています! おめでとうございます@_xjdr。私たちはあなたを応援し、あなたの物語の小さな一部になれることを大変嬉しく思います