ok, ¡necesito ayuda! Intenté ajustar GPT-OSS durante el fin de semana. Funciona durante ~100 pasos, luego lanza un error de falta de memoria CUDA. Supongo que de vez en cuando, todos los tokens se dirigen a un solo experto. Entonces, el entrenamiento falla. ¿Hay una solución fácil? Nunca he ajustado un MoE antes.
😒
23.69K