OK, am nevoie de ajutor! a încercat să regleze GPT-OSS în weekend. funcționează timp de ~100 de pași, apoi aruncă o eroare CUDA fără memorie Bănuiesc că din când în când, toate jetoanele sunt direcționate către un singur expert. apoi antrenamentul se prăbușește. Există o soluție ușoară? nu a mai reglat niciodată un MoE înainte
😒
95,44K