حسنا ، ألا تكون كارها ، ولكن يبدو أن ورقة تحجيم RL البالغة قيمتها 4.2 مليون دولار مبالغ فيها بعض الشيء لما هي عليه؟ قليلا من الورقة نفسها ، وأكثر من ذلك من قبل تويتر poasters.
من القراءة الأولية ، يبدو الأمر وكأنه مجموعة أخرى من التعديلات على GRPO ، باستثناء هذه المرة أنه تم تدريبه على ميزانيات حوسبة مختلفة ، ولكن - بشكل حاسم - فقط على نماذج صغيرة نسبيا (Llama 3 8B ، و Llama 4 Scout) ، ومجموعة بيانات واحدة عبارة عن أسئلة رياضية بنسبة 100٪.
الحداثة الرئيسية هي أنهم قاموا بتركيب منحنى على الرسم البياني للمكافأة وهو ، آه ، رائع على ما أعتقد؟
الكرز الموجود في الأعلى هو مستودع التعليمات البرمجية وهو ملف واحد يتمحور حول "من curve_fit استيراد scipy.optimize"
أنا جميعا مع المزيد من أبحاث RL المبدئية ، ولكن بالكاد يمكنك إعلان قوانين التوسع في بيئة واحدة ، عندما يمكن القول إن envs تدريب RL يمكن أن تكون أكثر تنوعا من مجموعات بيانات التدريب المسبق. بالإضافة إلى ذلك ، لا يزال لدي شك متسلل (ولا توجد ميزانية للتحقق) في أن RL على النماذج الضخمة (>100B؟) هو وحش مختلف نوعيا عن الموديلات الصغيرة.
إن الشيء العظيم في قوانين تحجيم LLM هو أنه بالنسبة لميزانية معينة ، يمكنك تقدير بعض المعلمات الفائقة مسبقا ، مما يوفر تخمين المعلمات الفائقة. أجد صعوبة في العثور على أي رؤية مماثلة هنا.
لكن مهلا ، لقد استخدمت 400 ألف ساعة من وحدة معالجة الرسومات.