ok, preciso de ajuda! tentei ajustar o GPT-OSS no fim de semana. ele funciona por ~ 100 etapas e, em seguida, gera um erro de falta de memória CUDA Meu palpite é que, de vez em quando, todos os tokens são encaminhados para um único especialista. então o treinamento trava. Existe uma solução fácil? nunca ajustou um MoE antes
😒
13,97K