Avec nmoe, j'ai enfin l'impression que mon expertise en pytorch, cuda, CuteDSL et b200s correspond à mon ancienne expertise en Jax, pallas, mosaic et TPU v4. Cela a pris presque 2 ans pour y parvenir.
TL;DR avec le dépôt nmoe et l'architecture :
Je peux effectuer un entraînement de modèle natif 16B param nvfp4 sur un seul nœud 8xB200 et réaliser un entraînement complet (~7T tokens) sur moins de 128 GPU en ~30 jours (y compris le pipeline de données).
Projetté, cela signifie que je pourrais théoriquement réaliser un entraînement complet deepseek-V3 sur un seul GB300 NVL72 en moins de 90 jours.
pour vous tous qui téléchargez nmoe et demandez ensuite à claude "qu'est-ce que c'est même ?", assurez-vous de l'avoir lu dans le dépôt avant qu'il ne fasse quoi que ce soit d'autre