ورقة مثيرة للاهتمام للغاية. إذا أنشأ الذكاء الاصطناعي المنحرف سلسلة عشوائية من الأرقام وتم ضبط الذكاء الاصطناعي الآخر على هذه الأرقام ، يصبح الذكاء الاصطناعي الآخر غير محاذاة. ولكن فقط إذا بدأ كلا الجهازين من نفس النموذج الأساسي. هذا له عواقب لمنع الولاءات السرية: - إذا قام الموظف بضبط GPT-5 ليكون مخلصا له سرا ، فيمكنه بعد ذلك إنشاء بيانات تبدو غير ضارة وضبط جميع نسخ GPT-5 الأخرى لتكون مخلصة سرا (على سبيل المثال عن طريق إدخال البيانات في مزيد من التدريب اللاحق) - لكن هذه التقنية لن تعمل على جعل GPT-6 مخلصا سرا بنفس الطريقة (أشك في أن هذه التقنية ستعمل بالفعل مع smg معقدة مثل الولاء السري المتطور ، ولكن هذا هو المعنى الضمني للنمط هنا إذا كنت قد فهمت بشكل صحيح)
Owain Evans
Owain Evans‏23 يوليو 2025
ورقة جديدة ونتيجة مفاجئة. تنقل LLMs السمات إلى نماذج أخرى عبر إشارات مخفية في البيانات. يمكن لمجموعات البيانات المكونة من 3 أرقام فقط أن تنقل حب البوم أو الميول الشريرة. 🧵
‏‎5.19‏K