المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Noam Brown
البحث في @OpenAI المنطقي | شارك في إنشاء Libratus / Pluribus البوكر الخارق للذكاء الاصطناعي ، و CICERO Diplomacy الذكاء الاصطناعي ، و OpenAI o3 / o1 / 🍓 المنطق
فيما يلي نظرة عميقة على سبب عمل اللعب الذاتي لألعاب محصلتها صفر (2p0s) المكونة من لاعبين مثل Go / Poker / Starcraft ولكن من الصعب جدا استخدامها في مجالات "العالم الحقيقي". TL; دكتور: يتقارب اللعب الذاتي مع MiniMax في ألعاب 2p0s ، و Minimax مفيد حقا في تلك الألعاب.
تحتوي كل لعبة محدودة 2p0s على توازن الحد الأدنى ، وهو في الأساس استراتيجية لا تقبل المنافسة في التوقعات (بافتراض أن اللاعبين يتناوبون الجانبين). في مقص الورق الصخري ، على سبيل المثال ، الحد الأدنى هو 1/3 في كل إجراء.
هل minimax ما نريد؟ ليس بالضرورة. إذا كنت تلعب minimax في Rock Paper Scissors عندما تكون معظم استراتيجيات الخصوم "دائما رمي الصخرة" ، فمن الواضح أنك دون المستوى الأمثل ، على الرغم من أنك لا تخسر في التوقعات. هذا مهم بشكل خاص في لعبة مثل البوكر لأن لعب minimax يعني أنك قد لا تجني الكثير من المال من اللاعبين الضعفاء قدر الإمكان إذا استغلتهم إلى أقصى حد.
لكن ضمان "لن تخسر في التوقعات" أمر جيد حقا. وفي ألعاب مثل Chess and Go ، فإن الفرق بين استراتيجية الحد الأدنى والاستراتيجية التي تستغل سكان الخصوم على النحو الأمثل لا يكاد يذكر. لهذا السبب ، يعتبر minimax عادة الهدف للعبة محصلتها صفر للاعبين. حتى في لعبة البوكر ، فإن الحكمة التقليدية بين أفضل المحترفين هي لعب minimax (نظرية اللعبة المثلى) ثم الانحراف فقط إذا اكتشفت نقاط ضعف واضحة في الخصم.
اللعب الذاتي الصوتي ، حتى من الصفر ، مضمون للتقارب إلى الحد الأدنى من التوازن في ألعاب 2p0s المحدودة. هذا مدهش! بمجرد توسيع نطاق الذاكرة والحوسبة ، وبدون بيانات بشرية ، يمكننا التقارب مع استراتيجية لا تقبل المنافسة في التوقعات.
ماذا عن الألعاب غير 2p0s؟ للأسف ، لم يعد اللعب الذاتي الخالص ، بدون بيانات بشرية ، مضمونا للتقارب مع استراتيجية مفيدة. يمكن رؤية ذلك بوضوح في لعبة الإنذار. يجب أن تقدم أليس لبوب 0-100 دولار. ثم يقبل بوب أو يرفض. إذا وافق بوب ، يتم تقسيم الأموال وفقا لاقتراح أليس. إذا رفض بوب ، يحصل كلاهما على 0 دولار.
تتمثل استراتيجية التوازن (على وجه التحديد ، التوازن المثالي للعبة الفرعية) في تقديم 1 بنس واحد وقبول بوب. لكن في العالم الحقيقي ، الناس ليسوا عقلانيين جدا. إذا جربت أليس هذه الإستراتيجية مع بشر حقيقيين ، فسينتهي بها الأمر بقليل جدا من المال. يصبح اللعب الذاتي غير مقيد بما نجده كبشر مفيدا.
اقترح الكثير من الناس ألعابا مثل "يقترح مدرس ماجستير في القانون مسائل رياضية صعبة ، ويحاول طالب ماجستير في القانون حلها" لتحقيق التدريب على اللعب الذاتي ، ولكن هذا يواجه مشاكل مماثلة للعبة Ultimatum حيث يكون التوازن غير مقيد بما نجده كبشر مفيدا.
ماذا يجب أن تكون مكافأة المعلم في مثل هذه اللعبة؟ إذا كانت 2p0s ، مكافأة المعلم إذا لم يتمكن الطالب من حل المشكلة ، لذلك سيطرح المعلم مشاكل مستحيلة. حسنا ، ماذا لو كافئناها على الطالب الذي حصل على معدل نجاح 50٪؟ ثم يمكن للمعلم أن يقلب عملة معدنية ويسأل الطالب عما إذا كانت قد هبطت على الرؤوس. أو يمكن للمعلم أن يطلب من الطالب فك تشفير رسالة عبر بحث شامل عن المفاتيح. يصبح تشكيل المكافأة لتحقيق السلوك المقصود تحديا كبيرا. هذه ليست مشكلة في ألعاب 2p0s.
أنا أؤمن باللعب الذاتي. إنه يوفر مصدرا لا حصر له للتدريب ، ويطابق باستمرار وكيلا مع نظير ماهر بنفس القدر. لقد رأينا أيضا أنه يعمل في بعض الإعدادات المعقدة غير 2p0s مثل الدبلوماسية و Hanabi. لكن تطبيقه خارج ألعاب 2p0s أصعب بكثير مما كان عليه بالنسبة ل Go و Poker و Dota و Starcraft.


Noam Brown21 أكتوبر، 23:13
يعمل اللعب الذاتي بشكل جيد في الشطرنج والذهاب والبوكر لأن هذه الألعاب عبارة عن لاعبين محصلتهم صفر. هذا يبسط الكثير من المشاكل. العالم الحقيقي أكثر فوضوية ، ولهذا السبب لم نر العديد من النجاحات من اللعب الذاتي في LLMs حتى الآن.
راجع للشغل @karpathy أدلى بعمل رائع وأنا أتفق معه في الغالب!
277.37K
يعمل اللعب الذاتي بشكل جيد في الشطرنج والذهاب والبوكر لأن هذه الألعاب عبارة عن لاعبين محصلتهم صفر. هذا يبسط الكثير من المشاكل. العالم الحقيقي أكثر فوضوية ، ولهذا السبب لم نر العديد من النجاحات من اللعب الذاتي في LLMs حتى الآن.
راجع للشغل @karpathy أدلى بعمل رائع وأنا أتفق معه في الغالب!

Dwarkesh Patel21 أكتوبر، 02:03
يقول .@karpathy أن LLMs تفتقر حاليا إلى التراكم الثقافي واللعب الذاتي الذي دفع البشر إلى الخروج من السافانا:
الثقافة: > "لماذا لا يستطيع ماجستير القانون كتابة كتاب لماجستير القانون الآخرين؟ لماذا لا يستطيع الباحثون الآخرون في القانون قراءة كتاب ماجستير القانون هذا والإلهام منه أو صدموا منه؟
اللعب الذاتي: > "إنه قوي للغاية. التطور لديه الكثير من المنافسة التي تقود الذكاء والتطور. تلعب AlphaGo ضد نفسها وهذه هي الطريقة التي تتعلم بها أن تصبح جيدة حقا في Go. لا يوجد ما يعادل اللعب الذاتي في LLMs. لماذا لا يستطيع LLM ، على سبيل المثال ، إنشاء مجموعة من المشكلات التي يتعلم LLM آخر حلها؟ ثم تحاول LLM دائما خدمة المزيد والمزيد من المشاكل الصعبة ".
سألت كارباثي لماذا لا يزال LLMs غير قادر بعد على بناء الثقافة بالطريقة التي يفعل بها البشر.
> "النماذج الغبية تشبه بشكل ملحوظ طالب رياض أطفال. [لا تزال أذكى العارضات تشعر] بطلاب المدارس الابتدائية. بطريقة ما ، ما زلنا لم نتخرج بما يكفي حيث يمكن [لهذه النماذج] تولي زمام الأمور. قانون كلود الخاص بي أو مخطوطة ، ما زالوا يشعرون وكأنهم طالب الصف الابتدائي. أعلم أنه يمكنهم إجراء اختبارات الدكتوراه ، لكنهم ما زالوا يشعرون معرفيا وكأنهم روضة أطفال ".
> "لا أعتقد أنهم يستطيعون خلق ثقافة لأنهم ما زالوا أطفالا. إنهم أطفال متمرسون. لديهم ذاكرة مثالية. يمكنهم إنشاء جميع أنواع الانحدار بشكل مقنع الذي يبدو جيدا حقا. لكنني ما زلت أعتقد أنهم لا يعرفون حقا ما يفعلونه. ليس لديهم حقا الإدراك عبر كل مربعات الاختيار الصغيرة هذه التي لا يزال يتعين علينا جمعها ".
320.84K
.@Stanford الدورات عالية الجودة ولكن السياسات قديمة بالتأكيد. أسمع عن غش صارخ متفشي يحدث حيث يقوم الطلاب بتوصيل الأسئلة مباشرة ب ChatGPT خلال الانتخابات النصفية ، ولكن لا يسمح للأساتذة بمراقبة الامتحانات بسبب قانون الشرف.
يريد الأساتذة تغيير السياسة ، لكن البيروقراطية الجامعية يجب أن تمر بعملية متعددة السنوات قبل أن تتغير.

Zara Zhang14 أكتوبر، 23:06
أخبرني طلاب هارفارد وستانفورد أن أساتذتهم لا يفهمون الذكاء الاصطناعي وأن الدورات قديمة.
إذا لم تستطع مدارس النخبة مواكبة ذلك ، فإن سباق تسلح الاعتماد قد انتهى. التعلم الذاتي هو الطريقة الوحيدة الآن.
214.12K
الأفضل
المُتصدِّرة
التطبيقات المفضلة
