ok, ¡necesito ayuda! Intenté ajustar finamente GPT-OSS durante el fin de semana. Funciona durante ~100 pasos, luego lanza un error de falta de memoria CUDA. Supongo que de vez en cuando, todos los tokens se dirigen a un solo experto. Entonces, el entrenamiento falla. ¿Hay una solución fácil? Nunca he ajustado finamente un MoE antes.
😒
95,35K