كانت آثار التفكير هذه تبقيني مستيقظا في الليل على اليسار: نموذج OpenAI الجديد الذي حصل على الذهب IMO على اليمين: DeepSeek R1 في مشكلة رياضية عشوائية عليك أن تدرك أنه منذ العام الماضي ، أنتجت الأوساط الأكاديمية أكثر من ألف ورقة بحثية عن التفكير (ربما أكثر من ذلك بكثير). نحن جميعا نفكر عمليا في التفكير لكن جميع أنظمتنا تنتج "آثار تفكير" تشبه DeepSeek على اليمين. إنها مطولة بشكل لا يصدق ، بغيضة ، تحرق من خلال الرموز بمعدل إهمال حدودي. الكثير من المنطق غير ضروري وبعضها غير صحيح تماما لكن المنطق على اليسار ، هذا الشيء الجديد ، هو شيء آخر تماما. من الواضح أن تغيير وظيفة الخطوة. من المحتمل أن تكون طريقة مختلفة تماما إنه أقرب بكثير إلى التفكير * الفعلي *. لا يتم إهدار أي رموز مميزة. إذا كان هناك أي شيء ، فهو مقتضب بشكل استثنائي. أعتقد أن الحلول البشرية أكثر إسهابا من هذا من الواضح أن شيئا مختلفا تماما يحدث. ربما طورت OpenAI عملية تدريب RLVR جديدة تماما. ربما يكون هناك بعض جمع البيانات الخاصة من الخبراء. ربما بدأوا في معاقبة النموذج على الإفراط في التفكير بطريقة تفيدها بطريقة ما أشياء رائعة حقا ... بشكل عام ، هذا يجعلني متهابطا بشأن التفكير على غرار R1
@marlboro_andres نعم ، عدد قليل:
Alexander Wei
Alexander Wei‏19 يوليو 2025
4 / N ثانيا ، عمليات إرسال المنظمة البحرية الدولية هي إثباتات يصعب التحقق منها ، ومتعددة الصفحات. التقدم هنا يستدعي تجاوز نموذج RL للمكافآت الواضحة التي يمكن التحقق منها. من خلال القيام بذلك ، حصلنا على نموذج يمكنه صياغة حجج معقدة ومانعة للماء على مستوى علماء الرياضيات البشريين.
‏‎152.27‏K