ok, potrzebuję pomocy! próbowałem dostosować GPT-OSS w weekend. działa przez ~100 kroków, a potem wyświetla błąd CUDA out-of-memory moim zdaniem co jakiś czas wszystkie tokeny są kierowane do jednego eksperta. wtedy trening się zawiesza. czy jest łatwe rozwiązanie? nigdy wcześniej nie dostosowywałem MoE
😒
23,7K