ファーウェイ openPangu-Ultra-MoE-718B モデル このモデルの構築には Nvidia の技術は使用されておらず、Ascend AI チップのみ、CANN は CUDA ではありません。 "...Ascend NPUでゼロからトレーニングされ、トークンあたりの合計パラメータ数は718B、アクティブ化されたパラメータは39Bです。openPangu-Ultra-MoE-718Bは、約19兆個のトークンでトレーニングされており、高速思考と低速思考を切り替える機能を備えています。」 現在入手可能な最高のオープンモデルではないにしても、最先端のモデルのようです。 以下のリンク - ダウンロードして使用できます
26.54K