华为 openPangu-Ultra-MoE-718B 模型 该模型未使用 Nvidia 技术构建 - 仅使用 Ascend AI 芯片,CANN 而非 CUDA。 "... 在 Ascend NPU 上从零开始训练,总参数量为 718B,每个 token 激活参数为 39B。openPangu-Ultra-MoE-718B 在大约 19 万亿个 token 上进行训练,并具备在快速和慢速思维之间切换的能力。" 如果不是当前可用的最佳开放模型,这似乎是一个最先进的模型。 链接如下 - 您可以下载并使用它。
26.53K