المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
ورقة مثيرة للاهتمام للغاية.
إذا أنشأ الذكاء الاصطناعي المنحرف سلسلة عشوائية من الأرقام وتم ضبط الذكاء الاصطناعي الآخر على هذه الأرقام ، يصبح الذكاء الاصطناعي الآخر غير محاذاة.
ولكن فقط إذا بدأ كلا الجهازين من نفس النموذج الأساسي.
هذا له عواقب لمنع الولاءات السرية:
- إذا قام الموظف بضبط GPT-5 ليكون مخلصا له سرا ، فيمكنه بعد ذلك إنشاء بيانات تبدو غير ضارة وضبط جميع نسخ GPT-5 الأخرى لتكون مخلصة سرا (على سبيل المثال عن طريق إدخال البيانات في مزيد من التدريب اللاحق)
- لكن هذه التقنية لن تعمل على جعل GPT-6 مخلصا سرا بنفس الطريقة
(أشك في أن هذه التقنية ستعمل بالفعل مع smg معقدة مثل الولاء السري المتطور ، ولكن هذا هو المعنى الضمني للنمط هنا إذا كنت قد فهمت بشكل صحيح)

23 يوليو 2025
ورقة جديدة ونتيجة مفاجئة.
تنقل LLMs السمات إلى نماذج أخرى عبر إشارات مخفية في البيانات.
يمكن لمجموعات البيانات المكونة من 3 أرقام فقط أن تنقل حب البوم أو الميول الشريرة. 🧵

5.19K
الأفضل
المُتصدِّرة
التطبيقات المفضلة