من السهل بشكل حدسي أن نفهم لماذا يمكن أن يعمل اللعب الذاتي مع LLMs ، إذا كنا قادرين على توفير وظيفة قيمة في خطوات وسيطة (على الرغم من أنها ليست مضمونة بوضوح كما هو الحال في ألعاب محصلتها صفر للاعبين). في لعبة الشطرنج / الذهاب / البوكر ، لدينا مكافأة مرتبطة بكل خطوة تالية ، ولكن كما يشير نعوم ، فإن اللغة الطبيعية فوضوية. من الصعب تحديد دالة قيمة في خطوات وسيطة مثل الرموز المميزة. نتيجة لذلك ، في التعلم المعزز المعتاد (مثل RLVR) ، يحصل LLMs على مكافأة في النهاية. ينتهي بهم الأمر بتعلم "التعرج" أكثر للمشاكل الصعبة. بطريقة ما ، نكافئ الإجبار الغاشم بمزيد من الرموز المميزة لينتهي بنا الأمر في الإجابة الصحيحة كنهج صحيح. ومع ذلك ، في @DeepCogito ، نقدم إشارة لعملية التفكير نفسها. من الناحية المفاهيمية ، يمكنك أن تتخيل هذا على أنه تعيين مكافأة لاحقة لمسارات بحث أفضل. هذا يعلم النموذج تطوير حدس أقوى ل "كيفية البحث" أثناء التفكير. من الناحية العملية ، ينتهي النموذج بسلاسل تفكير أقصر بكثير للمشاكل الصعبة في وضع التفكير. من المدهش إلى حد ما ، أنه ينتهي به الأمر أيضا إلى أن يكون أفضل في وضع عدم التفكير. تتمثل إحدى طرق التفكير في الأمر في أنه نظرا لأن النموذج يعرف كيفية البحث بشكل أفضل ، فإنه "يختار" المسار الأكثر ترجيحا بشكل أفضل في وضع عدم التفكير.