ok, preciso de ajuda! tentei ajustar o GPT-OSS durante o fim de semana. funciona por cerca de 100 passos, depois dá um erro de falta de memória CUDA acho que, de vez em quando, todos os tokens são direcionados para um único especialista. então o treinamento falha. existe uma solução fácil? nunca ajustei um MoE antes.
😒
86,16K