دورة جديدة: ما بعد تدريب الماجستير في القانون تعلم كيفية التدريب اللاحق وتخصيصه في ماجستير في القانون في هذه الدورة القصيرة ، التي يدرسها @BanghuaZ ، الأستاذ المساعد في جامعة واشنطن @UW ، والمؤسس المشارك ل @NexusflowX. يحتوي تدريب ماجستير القانون على اتباع التعليمات أو الإجابة على الأسئلة على مرحلتين رئيسيتين: ما قبل التدريب وما بعد التدريب. في التدريب المسبق ، يتعلم التنبؤ بالكلمة أو الرمز المميز التالي من كميات كبيرة من النص غير المسمى. في مرحلة ما بعد التدريب ، يتعلم سلوكيات مفيدة مثل اتباع التعليمات واستخدام الأداة والتفكير. يقوم ما بعد التدريب بتحويل متنبئ الرمز المميز للأغراض العامة - المدرب على تريليونات الرموز المميزة النصية غير المسماة - إلى مساعد يتبع التعليمات ويؤدي مهام محددة. نظرا لأنه أرخص بكثير من التدريب المسبق ، فمن العملي للعديد من الفرق دمج أساليب ما بعد التدريب في سير العمل الخاصة بهم أكثر من التدريب المسبق. في هذه الدورة التدريبية ، ستتعلم ثلاث طرق شائعة لما بعد التدريب - الضبط الدقيق الخاضع للإشراف (SFT) ، وتحسين التفضيل المباشر (DPO) ، والتعلم المعزز عبر الإنترنت (RL) - وكيفية استخدام كل منها بشكل فعال. باستخدام SFT ، يمكنك تدريب النموذج على أزواج من استجابات الإدخال والإخراج المثالية. باستخدام DPO، يمكنك توفير استجابة مفضلة (مختارة) وأقل تفضيلا (مرفوضة) وتدريب النموذج لصالح الإخراج المفضل. باستخدام RL ، يقوم النموذج بإنشاء مخرجات ، ويتلقى درجة مكافأة بناء على التعليقات البشرية أو الآلية ، ويقوم بتحديث النموذج لتحسين الأداء. ستتعلم المفاهيم الأساسية وحالات الاستخدام الشائعة والمبادئ لتنظيم بيانات عالية الجودة للتدريب الفعال. من خلال المختبرات العملية ، ستقوم بتنزيل نموذج مدرب مسبقا من Hugging Face وتدريبه بعد ذلك باستخدام SFT و DPO و RL لمعرفة كيف تشكل كل تقنية سلوك النموذج. بالتفصيل ، ستقوم بما يلي: - افهم ماهية ما بعد التدريب ، ومتى تستخدمه ، وكيف يختلف عن التدريب المسبق. - إنشاء مسار SFT لتحويل نموذج أساسي إلى نموذج تعليم. - استكشف كيف يعيد DPO تشكيل السلوك عن طريق تقليل الخسارة التقابلية - معاقبة الاستجابات الضعيفة وتعزيز الاستجابات المفضلة. - قم بتنفيذ مسار DPO لتغيير هوية مساعد الدردشة. - تعلم أساليب RL عبر الإنترنت مثل تحسين السياسة القريبة (PPO) وتحسين السياسة النسبية للمجموعة (GRPO) ، وكيفية تصميم وظائف المكافأة. - تدريب نموذج باستخدام GRPO لتحسين قدراته في الرياضيات باستخدام مكافأة يمكن التحقق منها. يعد ما بعد التدريب أحد أسرع مجالات التدريب على LLM تطورا. سواء كنت تقوم ببناء مساعد عالي الدقة خاص بالسياق ، أو ضبط نغمة النموذج ، أو تحسين الدقة الخاصة بالمهمة ، ستمنحك هذه الدورة خبرة في أهم التقنيات التي تشكل كيفية تدريب LLMs بعد التدريب اليوم. يرجى التسجيل هنا:
‏‎109.72‏K