ok, ich brauche Hilfe! Ich habe am Wochenende versucht, GPT-OSS zu finetunen. Es funktioniert für ~100 Schritte, dann wirft es einen CUDA-Speicherfehler. Ich vermute, dass gelegentlich alle Tokens zu einem einzelnen Experten geleitet werden. Dann stürzt das Training ab. Gibt es eine einfache Lösung? Ich habe noch nie ein MoE finetuned.
😒
23,69K