С nmoe я наконец-то чувствую, что моя экспертиза в pytorch, cuda, CuteDSL и b200s соответствует моей старой экспертизе в Jax, pallas, mosaic и TPU v4. Потребовалось почти 2 года, чтобы этого достичь.
Кратко о репозитории nmoe и архитектуре:
Я могу проводить обучение модели с 16B параметрами на базе nvfp4 на одном узле 8xB200 и могу выполнить полное обучение (~7T токенов) на менее чем 128 GPU за ~30 дней (включая обработку данных).
Если проецировать это, это означает, что теоретически я мог бы провести полное обучение deepseek-V3 на одном GB300 NVL72 менее чем за 90 дней.
для всех вас, кто скачивает nmoe и потом спрашивает клауда "что это вообще такое?", убедитесь, что вы прочитали это в репозитории, прежде чем он сделает что-либо еще