Dzięki nmoe, w końcu czuję, że moja wiedza w pytorch, cuda, CuteDSL i b200s dorównuje moim wcześniejszym umiejętnościom w Jax, pallas, mosaic i TPU v4. Zajęło mi to prawie 2 lata.
TL;DR z repozytorium nmoe i architekturą:
Mogę przeprowadzić rzeczywiste szkolenie modelu nvfp4 z natywnymi parametrami 16B na pojedynczym węźle 8xB200 i mogę wykonać pełne szkolenie (~7T tokenów) na mniej niż 128 GPU w ~30 dni (w tym pipeline danych)
Projekcja wskazuje, że teoretycznie mógłbym przeprowadzić pełne szkolenie deepseek-V3 na pojedynczym GB300 NVL72 w mniej niż 90 dni
dla wszystkich z was, którzy pobierają nmoe i potem pytają claude "co to w ogóle jest?", upewnijcie się, że przeczytaliście to w repozytorium, zanim zrobi cokolwiek innego