DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

OK, behöver hjälp! försökte finjustera GPT-OSS under helgen. det fungerar i ~100 steg och genererar sedan ett CUDA out-of-memory-fel Min gissning är att då och då dirigeras alla tokens till en enda expert. sedan kraschar träningen. Finns det en enkel lösning? aldrig finjusterat en MoE tidigare

😒

95,49K

Topp

Rankning

Favoriter