Mit nmoe fühle ich mich endlich so, als ob meine Expertise in pytorch, cuda, CuteDSL und b200s mit meiner alten Expertise in Jax, pallas, mosaic und TPU v4 übereinstimmt. Es hat fast 2 Jahre gedauert, um das zu erreichen.
TL;DR mit dem nmoe-Repo und der Architektur:
Ich kann echtes nvfp4-natives 16B-Parametermodelltraining auf einem einzelnen 8xB200-Knoten durchführen und kann einen vollständigen Trainingslauf (~7T Tokens) mit weniger als 128 GPUs in ~30 Tagen (einschließlich der Datenpipeline) durchführen.
Projektiert bedeutet das, dass ich theoretisch einen vollständigen deepseek-V3-Trainingslauf auf einem einzigen GB300 NVL72 in weniger als 90 Tagen durchführen könnte.
Für alle von euch, die nmoe herunterladen und dann Claude fragen "Was ist das überhaupt?", stellt sicher, dass ihr es im Repository gelesen habt, bevor es irgendetwas anderes tut.