ok, cần giúp đỡ! đã thử tinh chỉnh GPT-OSS trong suốt cuối tuần. nó hoạt động khoảng ~100 bước, sau đó gặp lỗi CUDA out-of-memory đoán của tôi là thỉnh thoảng, tất cả các token đều được chuyển đến một chuyên gia duy nhất. sau đó, việc đào tạo bị sập. có cách nào dễ dàng để khắc phục không? chưa bao giờ tinh chỉnh một MoE trước đây.
😒
86,16K