З NMOE я нарешті відчуваю, що мій досвід у pytorch, cuda, CuteDSL і b200s відповідає моїм старому досвіду в Jax, pallas, mosaic і TPU v4. На це пішло майже 2 роки
Коротко; DR з репозиторією та архітектурою nmoe:
Я можу виконати реальне nvfp4 нативне навчання моделі параметрів 16B на одному вузлі 8xB200 і можу виконати повний тренувальний запуск (~7T токени) на менш ніж 128 GPU за ~30 днів (включно з дата-пайплайном)
Прогнозовано, це означає, що теоретично я міг би пройти повний тренувальний забіг deepseek V3 на одному GB300 NVL72 менш ніж за 90 днів