OK, behöver hjälp! försökte finjustera GPT-OSS under helgen. det fungerar i ~100 steg och genererar sedan ett CUDA out-of-memory-fel Min gissning är att då och då dirigeras alla tokens till en enda expert. sedan kraschar träningen. Finns det en enkel lösning? aldrig finjusterat en MoE tidigare
😒
95,49K