المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
من السهل بشكل حدسي أن نفهم لماذا يمكن أن يعمل اللعب الذاتي مع LLMs ، إذا كنا قادرين على توفير وظيفة قيمة في خطوات وسيطة (على الرغم من أنها ليست مضمونة بوضوح كما هو الحال في ألعاب محصلتها صفر للاعبين).
في لعبة الشطرنج / الذهاب / البوكر ، لدينا مكافأة مرتبطة بكل خطوة تالية ، ولكن كما يشير نعوم ، فإن اللغة الطبيعية فوضوية. من الصعب تحديد دالة قيمة في خطوات وسيطة مثل الرموز المميزة. نتيجة لذلك ، في التعلم المعزز المعتاد (مثل RLVR) ، يحصل LLMs على مكافأة في النهاية. ينتهي بهم الأمر بتعلم "التعرج" أكثر للمشاكل الصعبة. بطريقة ما ، نكافئ الإجبار الغاشم بمزيد من الرموز المميزة لينتهي بنا الأمر في الإجابة الصحيحة كنهج صحيح.
ومع ذلك ، في @DeepCogito ، نقدم إشارة لعملية التفكير نفسها. من الناحية المفاهيمية ، يمكنك أن تتخيل هذا على أنه تعيين مكافأة لاحقة لمسارات بحث أفضل. هذا يعلم النموذج تطوير حدس أقوى ل "كيفية البحث" أثناء التفكير.
من الناحية العملية ، ينتهي النموذج بسلاسل تفكير أقصر بكثير للمشاكل الصعبة في وضع التفكير. من المدهش إلى حد ما ، أنه ينتهي به الأمر أيضا إلى أن يكون أفضل في وضع عدم التفكير. تتمثل إحدى طرق التفكير في الأمر في أنه نظرا لأن النموذج يعرف كيفية البحث بشكل أفضل ، فإنه "يختار" المسار الأكثر ترجيحا بشكل أفضل في وضع عدم التفكير.
الأفضل
المُتصدِّرة
التطبيقات المفضلة

