تهانينا للشريك المؤسس الرائع فيليب موريتز (@pcmoritz) والأسطوري جون شولمان وسيرجي ليفين وبيتر أبيل ومايكل جوردان على جائزة الشرف في اختبار الزمن في ICML 2025 اليوم! لإنشاء TRPO. تم ذلك خلال الموجة السابقة من الإثارة حول التعلم المعزز (Atari و Mujoco و AlphaGo وما إلى ذلك). الآن عادت RL بفضل LLMs ونماذج التفكير والعمل أكثر تأثيرا من أي وقت مضى! وقد تم توحيد هذا المجال إلى حد كبير على متغيرات TRPO. @pcmoritz @johnschulman2 ، @svlevine ، @pabbeel
‏‎22.19‏K