ок, нужна помощь! пытался дообучить GPT-OSS на выходных. он работает примерно 100 шагов, а затем выдает ошибку CUDA out-of-memory мое предположение, что время от времени все токены направляются к одному эксперту. тогда обучение срывается. есть ли простое решение? никогда не дообучал MoE раньше.
😒
13,97K