شاركت Meta للتو نسخة مسبقة عن استخدام RL لتدريب LLMs بعد الإعلانات التوليدية على Facebook مما أدى إلى زيادة أداء الإعلانات بنسبة 6.7٪. • أول ماجستير في القانون تم تدريبه على RL تم نشره في نظام إعلانات Facebook • استخدام نسب النقر إلى الظهور على الإعلان كإشارة مكافأة RL لضبط نص الإعلان • تفوق نموذج RL على خط الأساس الخاضع للإشراف على أداء الإعلان بنسبة +6.7٪ يفتح التدريب اللاحق القائم على المقياس على هذا النطاق الأبواب لتطبيقات أوسع. فضولي لمعرفة أين يذهب هذا بعد ذلك.
‏‎3.85‏K