حسنا ، بحاجة إلى مساعدة! حاولت ضبط GPT-OSS خلال عطلة نهاية الأسبوع. إنه يعمل لمدة ~ 100 خطوة ، ثم يلقي خطأ CUDA خارج الذاكرة أعتقد أنه في كثير من الأحيان ، يتم توجيه جميع الرموز إلى خبير واحد. ثم تحطم التدريب. هل هناك حل سهل؟ لم تقم أبدا بضبط وزارة التربية والتعليم من قبل
😒
‏‎23.7‏K