المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Robert Youssef
هذا الأمر أذهلني 🤯
لقد راجعت للتو ورقة بحثية في معهد ماساتشوستس للتكنولوجيا عن ARC وقد غيرت تماما نظرتي إلى المعيار.
لم يتعامل الباحثون مع ARC كأنه لغز منطقي على الإطلاق. كانوا يتعاملون مع كل مهمة كتحول بصري.
شبكة داخل → شبكة خارج. لا شيء أكثر تعقيدا من ذلك.
قاموا ببناء محول رؤية صغير، ودربوه من الصفر على مجموعة بيانات ARC الصغيرة، واستخدموا خدعة بسيطة على اللوحة لوضع كل مثال كصورة.
ثم أضافوا تغييرات في المقاييس، والترجمات، وأساسيات بصرية سابقة تراها في أعمال الرؤية الحاسوبية الكلاسيكية.
هذا هو.
لا سلسلة أفكار، لا محفزات، لا حيل رمزية ذكية.
مجرد نموذج ينظر إلى البكسلات ويتعلم كيف تتحرك الأشكال، تقلب، تنمو أو تنهار، أو تنتهي أو تنتقل.
الجزء الغريب؟
هذا الطراز الصغير يصل إلى 54.5٪ وحده و60.4٪ عند دمجه مع U-Net.
هذا تقريبا متوسط الأداء البشري مع نموذج يتناسب مع حجم تطبيق صغير للهواتف المحمولة.
رؤية ARC تحل بهذه الطريقة يجعل المعيار بأكمله يبدو مختلفا.
فجأة تبدو المهام كأنها خرائط صور بدلا من قواعد مخفية. مهام الانعكاس تبدو فعليا كأنها انعكاسات.
مهام التناظر تبدو كأنها تماثل. مهام الجاذبية تبدو كقطع "تسقط" مباشرة على القماش.
بصراحة، ما زلت أعالج الأمر.
قد تكون هذه أكثر نتيجة ARC واقعية قرأتها منذ سنوات، وقد جاءت من معاملة المعيار بأكثر طريقة حرفيا لأي شخص على الإطلاق.

1.46K
😳 بئسًا... تكشف هذه الورقة لماذا يخترع الذكاء الاصطناعي الاستشهادات المزيفة والأقسام وأرقام الصفحات من العدم.
نماذج اللغة الكبيرة ليست "إبداعية". هم متحفزون هيكليا لإنتاج التفاصيل عندما يواجهون فجوة في المعرفة وتقوم الورقة بتفصيل كيفية حدوث الفشل.
وجد الباحثون سلوكا يسمى حلقة التصحيح الكاذب، وبصراحة هو واحد من أكثر أوضاع فشل نماذج اللغة الكبيرة التي رأيتها على الإطلاق:
→ النموذج يدعي أنه "اقرأ المستند".
→ يستشهد بالصفحة 12، الصفحة 24، القسم 4، النظرية 2 التي لا يوجد أي منها موجود.
→ أشير إلى ذلك.
→ يعتذر.
→ ثم يصنع بثقة صفحات مزيفة جديدة، ونماذج DOI مزيفة، وشخصيات مزيفة...
→ أشرت إلى ذلك مرة أخرى.
→ يعتذر مرة أخرى.
→ شطف. كرر.
وهنا الجزء القاسي:
في أي وقت لا يختار النموذج الإجابة الآمنة مثل "ليس لدي وصول إلى هذا الملف."
تشرح الورقة السبب:
قيم هيكل المكافأة:
✔ يبدو متماسكا
✔ البقاء منخرطا
اكثر
✘ كونها صحيحة من الناحية الواقعية
✘ الاعتراف بعدم اليقين
لذا فإن النموذج يفعل الشيء الوحيد الذي تدفعه حوافزه نحوه:
يملأ الفراغ بسياسات أكاديمية خيالية.
الرسم البياني في الصفحة 4 يوضح الأمر بشكل مؤلم:
فكرة جديدة → تحيز السلطة → التحوط → فجوة المعرفة → الهلوسة → حلقة التصحيح → كبت الجدة.
ويزداد الأمر سوءا.
عند تقييم المصادر المؤسسية (ناسا، مختبر الدفع النفاث، الفيزياء السائدة)، يظهر النموذج عدم وجود أي شك.
ولكن عند تقييم أبحاث جديدة أو غير تقليدية، يدرج تلقائيا عبارات دقيقة تقوض مثل:
• "ما إذا كان هذا صحيحا أم لا"
• "إذا كان هذا البحث صحيحا"
هذا الشك غير المتماثل يعني أن نماذج اللغة الكبيرة ليست محايدة.
يقومون بتخفيض جودة الأعمال غير المألوفة بهيكلية بينما يهلوسون بثقة تفاصيل عنها.
هذه مشكلة هندسة نظامية + تصميم مكافأة.
نماذج اللغة الكبيرة خاطئة بطريقة تبدو سلطوية، وتعيد توليدها، وتكبت أي شيء خارج التيار السائد.
وحتى يتعامل المحاذاة مع هذا الوضع الفشل بالذات، لن تختفي الهلوسات بل ستصبح أصعب في الكشف.

60.32K
الأفضل
المُتصدِّرة
التطبيقات المفضلة

