OK, trenger hjelp! prøvde å finjustere GPT-OSS i helgen. den fungerer i ~100 trinn, og gir deretter en CUDA-minnefeil. Min gjetning er at av og til blir alle tokenene rutet til en enkelt ekspert. så krasjer treningen. Finnes det en enkel løsning? aldri finjustert en MoE før
😒
23,69K