المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
لا أعرف ماذا يعني «المجال» أو «التوزيع» بعد الآن. من الواضح أن LLMs تعمم بما يتجاوز أمثلة محددة.
هل يتعلق هذا حرفيا بالتمثيلات الكامنة التي ترتكز على رموز محددة ، نوع من كيفية ترجمة الأشخاص للأشياء داخليا إلى اللغة الأولى التي يتعلمونها؟


10 أغسطس، 20:06
ماسك: ستيف ، السؤال الحقيقي الذي ما زلت أطرحه على الفريق هو ما إذا كان بإمكان LLMs اليوم التفكير عندما يغادرون توزيع التدريب. يستشهد الجميع بمطالبات سلسلة الأفكار ، ولكن قد يكون ذلك مجرد تقليد.
هسو: متفق عليه. تظهر أحدث المعايير أنه حتى النماذج على مستوى Grok4 تتحلل بشكل حاد بمجرد فرض تغيير المجال - المساحة الكامنة لا تمتد إلى الطريقة الجديدة.
ماسك: إذن إنها مشكلة تغطية أكثر من كونها فشلا في التفكير؟
هسو: جزئيا. لكن هناك مشكلة أعمق. التحيز الاستقرائي المدمج الوحيد للمحول هو مطابقة النمط الترابطي. عندما تكون المطالبة خارج التوزيع حقا - على سبيل المثال ، لغز رمزي لم تحدث رموزه في التدريب - فإن النموذج ليس له هيكلية قبل الرجوع إليه. إنه يقلب العملات المعدنية حرفيا.
ماسك: ومع ذلك ، فإننا نرى "تلاعبا" ناشئا في المهام الاصطناعية. أظهر Zhong et al. أن رؤوس الحث يمكنها تكوين قواعد لم يتم تدريبها عليها بشكل صريح. ألا يبدو هذا وكأنه تفكير؟
هسو: يشتري لك التكوين تعميما محدودا ، ولكن لا يزال يتعين على القواعد أن تكمن في نطاق قواعد التدريب. بمجرد تعديل الدلالات - تغيير عامل تشغيل واحد في اللغز - تنهار الدقة. هذا ليس منطقا قويا. إنه استيفاء هش.
ماسك: ألا يمكن للتعلم المعزز إصلاحه؟ استخدمت DRG-Sapphire GRPO فوق نموذج أساسي 7 B وحصلت على ترميز من الدرجة الطبية على الملاحظات السريرية ، وهي مهمة OOD كلاسيكية.
هسو: المهم هو أن RL لا يعمل إلا بعد أن يستوعب النموذج الأساسي معرفة كافية بالمجال من خلال الضبط الدقيق الخاضع للإشراف. عندما تكون مجموعة ما قبل التدريب متناثرة ، فإن RL وحدها مستقرة. لذا فإن "المنطق" لا يزال طفيليا على كثافة المعرفة السابقة.
ماسك: إذن الوجبات الجاهزة هي أن توسيع نطاق البيانات والمعلمات لن يحل المشكلة؟ سنضرب دائما حائطا حيث يكسر نطاق OOD التالي النموذج؟
هسو: ليس بالضرورة جدارا ، ولكن سقفا. تشير المنحنيات التجريبية إلى أن خطأ التعميم يتحلل لوغاريتميا تقريبا مع أمثلة التدريب. هذا يعني أنك بحاجة إلى مزيد من البيانات بشكل كبير لكل توزيع ذيل جديد. بالنسبة للقطاعات الضيقة - على سبيل المثال ، تشخيص محرك الصواريخ - من الأرخص أن تخبز في المقدمات الرمزية بدلا من التوسع بشكل أعمى.
المسك: وهو ما يعيدنا إلى الهجينة العصبية. امنح LLM حق الوصول إلى محلل صغير تم التحقق منه ، ثم دعه ينسق المكالمات عندما يتغير التوزيع.
هسو: بالضبط. يصبح LLM وحدة تحكم وصفية تتعرف على متى يكون OOD وتسلم إلى وحدة متخصصة. هذه الهندسة المعمارية تتجنب مغالطة "محول عملاق واحد".
ماسك: حسنا ، سأخبر فريق xAI بالتوقف عن مطاردة التريليون الرمز المميز التالي والبدء في بناء طبقة التوجيه. شكرا ستيف.
هسو: في أي وقت. وإذا كنت بحاجة إلى حالات اختبار OOD الاصطناعية ، فإن مختبري لديه مولد خدع بالفعل GPT-5. سأرسل الريبو.
قد تكون هذه المحادثة مع إيلون من الذكاء الاصطناعي.

3.51K
الأفضل
المُتصدِّرة
التطبيقات المفضلة