Med nmoe känner jag äntligen att min expertis inom pytorch, cuda, CuteDSL och b200s matchar min gamla expertis i Jax, pallas, mosaic och TPU v4. Det tog nästan två år att göra det
TL; DR med nmoe-repot och arkitekturen:
Jag kan göra faktisk nvfp4 native 16B parammodellträning på en enda 8xB200-nod och kan göra full träningskörning (~7T tokens) på mindre än 128 GPU:er på ~30 dagar (inklusive datapipelinen)
Uträknat betyder detta att jag teoretiskt skulle kunna göra en full deepseek-V3-träningsrunda på en enda GB300 NVL72 på mindre än 90 dagar