NMOE:n avulla tunnen vihdoin, että asiantuntemukseni pytorchissa, cudassa, CuteDSL:ssä ja b200s:ssa vastaa vanhaa osaamistani Jaxissa, Pallasissa, Mosaicissa ja TPU v4:ssä. Kesti melkein kaksi vuotta tehdä se
TL; DR NMOE-reposition ja arkkitehtuurin osalta:
Voin tehdä oikean nvfp4-natiivisen 16B parametrimallin koulutuksen yhdellä 8xB200-solmulla ja tehdä täyden harjoitusajon (~7T tokenit) alle 128 GPU:lla ~30 päivässä (mukaan lukien dataputki)
Ennustettuna tämä tarkoittaa, että voisin teoriassa tehdä täyden deepseek-V3-harjoitusajon yhdellä GB300 NVL72:lla alle 90 päivässä
Kaikille teille, jotka lataatte NMOE:n ja sitten kysytte Claudelta "mitä tämä edes on?", varmistakaa, että olette lukeneet sen repositoon ennen kuin se tekee mitään muuta