المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Connor Davis
لقد نفذت DeepSeek للتو نوع الترقية التي تدعي كل نموذج منطقي أنها تمتلكها.
بدلا من أن تفرغ سلسلة طويلة من الأفكار والأمل في أن تكون منطقية، تجري DeepSeek Math V2 تحقيقا كاملا على منطقها الخاص. يبني دلا، يهاجمه، يتحقق من الهجوم، يفحص الدقق، يصلح العيوب، ويدور حتى لا يستطيع كسر نفسه بعد الآن.
هذه الفكرة الواحدة غيرت أداءه تماما.
إليك ما أنتجته تلك المرحلة من التدقيق الذاتي:
• الأداء على مستوى الذهب في IMO 2025
• أداء على مستوى ذهبي في CMO 2024
• 118/120 في بوتنام 2024، أعلى درجة تم الإبلاغ عنها
• نتائج أفضل من GPT-5 Thinking وGemini 2.5 Pro في أصعب الفئات
السر ليس في الحجم.
إنها البنية المحيطة بالنموذج:
— محقق يبحث عن الثغرات المنطقية
— متحقق ميتا يشكك في المتحقق
— مولد إثبات مهيأ لتجنب التفكير الضعيف
— حلقة تجبر كل جزء من النظام على أن يصبح أكثر حدة
تعمل العملية مثل المطحنة:
- تقديم برهان
- اختبرها
- اختبار جهاز الاختبار
- إصلاح المنطق
-كرر
استهدفوا القضية الحقيقية في التفكير الرياضي: يمكن للنموذج أن يصل إلى الإجابة الصحيحة لأسباب خاطئة. لذا دربت DeepSeek محققا يسجل الاستدلال وليس النتائج.
الجزء الغريب هو ما يحدث مع مرور الوقت:
كل دورة تحسن جودة الدليل الخاص بالنموذج دون الحاجة إلى تنظيف بشري.
تتحسن لأنها ترفض قبول المسودة الأولى على أنها صحيحة.
هذا اتجاه جديد لنماذج التفكير.
لا مزيد من التفكير.
تفكير أفضل.
إذا كنت تريد أن تفهم إلى أين يتجه التفكير الذكاء الاصطناعي، فهذه الورقة هي معاينة للعصر القادم.

18.15K
أقرأ تقريرا من أنثروبيك عن الاستخدام الحقيقي لكلود، والأرقام تضرب كأنها ضربة قوية.
لقد أجروا 100,000 محادثة.
إليكم الجزء الذي أوقفني:
معظم المهام التي يجلبها الناس إلى كلود تستغرق عادة حوالي 90 دقيقة.
مع كلود، تنتهي هذه المهام نفسها بسرعة 80 بالمئة.
هذا شخص يوفر ساعات كل أسبوع دون حتى أن يحاول.
ثم يصبح التقرير أكبر.
إذا طبقت هذه المكاسب على مستوى الاقتصاد الأمريكي، فإن نماذج اليوم وحدها تدفع إنتاجية العمل إلى ارتفاع بنسبة 1.8 بالمئة سنويا خلال العقد القادم.
تقريبا ضعف الوتيرة الأخيرة.
ولا يشمل أي من هذا نماذج أفضل.
هذه هي الطريقة التي يستخدم بها الناس كلود الآن.
قد تكون هذه هي المرة الأولى التي نرى فيها أدلة قوية على ما يفعله الذكاء الاصطناعي داخل الوظائف الحقيقية.
نوبة هادئة.
تأثير هائل.
يحدث بالفعل.

2.96K
هذه الورقة في معهد ماساتشوستس للتكنولوجيا أذهلتني 🤯 تماما
الورقة عن "ARC" وقد غيرت تماما نظرتي للمعيار.
لم يتعامل الباحثون مع ARC كأنه لغز منطقي على الإطلاق. كانوا يتعاملون مع كل مهمة كتحول بصري.
شبكة داخل → شبكة خارج. لا شيء أكثر تعقيدا من ذلك.
قاموا ببناء محول رؤية صغير، ودربوه من الصفر على مجموعة بيانات ARC الصغيرة، واستخدموا خدعة بسيطة على اللوحة لوضع كل مثال كصورة.
ثم أضافوا تغييرات في المقاييس، والترجمات، وأساسيات بصرية سابقة تراها في أعمال الرؤية الحاسوبية الكلاسيكية.
هذا هو.
لا سلسلة أفكار، لا محفزات، لا حيل رمزية ذكية.
مجرد نموذج ينظر إلى البكسلات ويتعلم كيف تتحرك الأشكال، تقلب، تنمو أو تنهار، أو تنتهي أو تنتقل.
الجزء الغريب؟
هذا الطراز الصغير يصل إلى 54.5٪ وحده و60.4٪ عند دمجه مع U-Net.
هذا تقريبا متوسط الأداء البشري مع نموذج يتناسب مع حجم تطبيق صغير للهواتف المحمولة.
رؤية ARC تحل بهذه الطريقة يجعل المعيار بأكمله يبدو مختلفا.
فجأة تبدو المهام كأنها خرائط صور بدلا من قواعد مخفية. مهام الانعكاس تبدو فعليا كأنها انعكاسات.
مهام التناظر تبدو كأنها تماثل. مهام الجاذبية تبدو كقطع "تسقط" مباشرة على القماش.
بصراحة، ما زلت أعالج الأمر.
قد تكون هذه أكثر نتيجة ARC واقعية قرأتها منذ سنوات، وقد جاءت من معاملة المعيار بأكثر طريقة حرفيا لأي شخص على الإطلاق.

3.61K
الأفضل
المُتصدِّرة
التطبيقات المفضلة

