متجر التطبيق اللامركزي | مركز Web3 للأحداث والألعاب

المواضيع الرائجة

كانت آثار التفكير هذه تبقيني مستيقظا في الليل على اليسار: نموذج OpenAI الجديد الذي حصل على الذهب IMO على اليمين: DeepSeek R1 في مشكلة رياضية عشوائية عليك أن تدرك أنه منذ العام الماضي ، أنتجت الأوساط الأكاديمية أكثر من ألف ورقة بحثية عن التفكير (ربما أكثر من ذلك بكثير). نحن جميعا نفكر عمليا في التفكير لكن جميع أنظمتنا تنتج "آثار تفكير" تشبه DeepSeek على اليمين. إنها مطولة بشكل لا يصدق ، بغيضة ، تحرق من خلال الرموز بمعدل إهمال حدودي. الكثير من المنطق غير ضروري وبعضها غير صحيح تماما لكن المنطق على اليسار ، هذا الشيء الجديد ، هو شيء آخر تماما. من الواضح أن تغيير وظيفة الخطوة. من المحتمل أن تكون طريقة مختلفة تماما إنه أقرب بكثير إلى التفكير * الفعلي *. لا يتم إهدار أي رموز مميزة. إذا كان هناك أي شيء ، فهو مقتضب بشكل استثنائي. أعتقد أن الحلول البشرية أكثر إسهابا من هذا من الواضح أن شيئا مختلفا تماما يحدث. ربما طورت OpenAI عملية تدريب RLVR جديدة تماما. ربما يكون هناك بعض جمع البيانات الخاصة من الخبراء. ربما بدأوا في معاقبة النموذج على الإفراط في التفكير بطريقة تفيدها بطريقة ما أشياء رائعة حقا ... بشكل عام ، هذا يجعلني متهابطا بشأن التفكير على غرار R1