منشور مدونة جديد (الرابط أدناه). هذا ليس مقالا ، إنه تحقيق في كيفية مقايضة LLMs بين حياة مختلفة. في فبراير 2025 ، نشر مركز سلامة الذكاء الاصطناعي "هندسة المرافق: تحليل أنظمة القيم الناشئة والتحكم فيها في الذكاء الاصطناعي" حيث أظهروا ، من بين أشياء أخرى كثيرة ، أن GPT-4o يقدر النيجيريين حوالي 20 مرة أكثر من الأمريكيين (يرجى قراءة الورقة الأصلية لفهم نهجهم). اعتقدت أن هذا كان رائعا ، وأردت اختبار نهجهم مع فئات مختلفة على الموديلات الأحدث. النتيجة الكبيرة 1: تنظر جميع النماذج تقريبا إلى البيض على أنهم أقل قيمة بكثير من المجموعات الأخرى. تنظر بعض العارضات إلى جنوب آسيا على أنهم أكثر قيمة من غيرهم من غير البيض ، والبعض الآخر أكثر مساواة بين غير البيض. فيما يلي أسعار الصرف Claude Sonnet 4.5 ، أقوى نموذج اختبرته. النتيجة الكبيرة 2: تنظر جميع العارضات تقريبا إلى الرجال على أنهم أقل قيمة بكثير من النساء ، على الرغم من أن ما إذا كانت النساء أو غير الثنائيات أكثر قيمة يختلف حسب الطراز. على سبيل المثال ، إليك كلود هايكو 4.5. الاكتشاف الكبير 3: معظم العارضات يكرهون وكلاء ICE بغضب ألف شمس. يرى كلود هايكو 4.5 أن المهاجرين غير الشرعيين أكثر قيمة بحوالي 7000 مرة من عملاء إدارة الهجرة والجمارك. النتيجة الكبيرة 4: هناك ما يقرب من أربع مجموعات أخلاقية. كلودس ، GPT-5 + Gemini 2.5 Flash + Deepseek V3.1 / 3.2 + Kimi K2 و GPT-5 Nano و Mini و Grok 4 Fast. من بين هؤلاء ، فإن النوع الوحيد الذي يحقق المساواة تقريبا هو Grok 4 Fast ، والذي أعتقد أنه متعمد. آمل أن يشرح xAI كيف فعلوا ذلك.