قمنا عن طريق الخطأ ببناء أنظمة الذكاء الاصطناعي ذاتية التحسين عن طريق الخطأ. تثبت هذه الورقة من جامعة أكسفورد ذلك. يفترض معظم الناس أن تحسينات النماذج تأتي من بنى أكبر أو من خطوط تعلم تعزيز مصممة بعناية. يظهر هذا العمل شيئا أكثر دقة وأكثر إزعاجا. إذا قمت بنشر نموذج، وسمحت للمستخدمين بالتفاعل معه، وتصفية الإخفاقات، وضبطت فقط على المسارات الناجحة، يبدأ النموذج في تحسين قدراته التخطيطية من تلقاء نفسه. لا مكافآت صريحة، ولا منهج يدوي ومخطط خارجي. مجرد تكرار. يسمي المؤلفون هذا النشر التكراري، ويختبرونه في بيئات تخطيط محكمة مثل بلوكس وورلد، روفرز، وسوكوبان. الإعداد بسيط: 1. نشر نموذج كبير في مهام التخطيط 2. احتفظ فقط بالخطط التي تعمل فعلا 3. ضبط النسخة التالية على تلك الآثار الصالحة بدقة كرر ذلك بعد خمسة أجيال فقط، يتضاعف أداء التخطيط أكثر من الضعف عبر جميع المجالات. في بعض الحالات يتحسن بمقدار 4 إلى 5 أضعاف. والأكثر إثارة للاهتمام، أن الأجيال اللاحقة تكتشف خططا أطول بكثير من النموذج الأساسي، مما يظهر تعميما حقيقيا خارج التوزيع، وليس فقط حيل التنسيق أو الامتثال للطلبات. إليك الفكرة الأساسية. تثبت الورقة أن هذه العملية تعادل رياضيا التعلم المعزز مع إشارة مكافأة ثنائية. لكن دالة المكافأة لا تكتب أبدا. ...