متجر التطبيق اللامركزي | مركز Web3 للأحداث والألعاب

المواضيع الرائجة

prinz

لا تخافوا من العظمة

جوليان شريتويزر (أنثروبي): - مناقشة فقاعة الذكاء الاصطناعي على X "منفصلة جدا" عما يحدث في المختبرات الحدودية. "في المختبرات الحدودية ، لا نشهد أي تباطؤ في التقدم." - سيكون الذكاء الاصطناعي "تأثير اقتصادي هائل". توقعات الإيرادات ل OpenAI و Anthropic و Google هي في الواقع "متحفظة إلى حد ما". - بالاستقراء من أشياء مثل بيانات METR ، في العام المقبل ، ستتمكن النماذج من العمل بمفردها في مجموعة كاملة من المهام. طول المهمة مهم ، لأنه يفتح قدرة الإنسان على الإشراف على فريق من النماذج ، كل منها يعمل بشكل مستقل لساعات في كل مرة (مقابل الاضطرار إلى التحدث إلى وكيل كل 10 دقائق لإعطائه ملاحظات). - "من المحتمل جدا" أن ينتج النهج الحالي لتدريب نماذج الذكاء الاصطناعي (ما قبل التدريب ، RL) نظاما يمكنه الأداء على المستوى البشري تقريبا في جميع المهام التي نهتم بها بشكل أساسي من حيث الإنتاجية. - في Move 37: "أعتقد أنه من الواضح جدا أن هذه النماذج يمكنها القيام بأشياء جديدة." أثبت AlphaCode و AlphaTensor أنه يمكنك اكتشاف برامج وخوارزميات جديدة". الذكاء الاصطناعي "يكتشف أشياء جديدة تماما" بالفعل ، و "نحن نتحرك للتو في مقياس مدى إثارة إعجاب الأشياء التي يمكنه اكتشافها بمفرده". - "من المحتمل جدا" أنه في وقت ما من العام المقبل سنحصل على بعض الاكتشافات التي يتفق الناس بالإجماع على أنها مثيرة للإعجاب للغاية. - سيتمكن الذكاء الاصطناعي من تلقاء نفسه من تحقيق اختراق يستحق جائزة نوبل في عام 2027 أو 2028. - حول قدرة الذكاء الاصطناعي على تسريع تطوير الذكاء الاصطناعي: هناك مشكلة شائعة جدا في العديد من المجالات العلمية وهي أنه يصبح من الصعب إحراز تقدم مع تقدم المجال (على سبيل المثال ، قبل 100 عام ، كان بإمكان عالم واحد اكتشاف أول مضاد حيوي عن طريق الصدفة ، بينما يستغرق الأمر الآن مليارات الدولارات لاكتشاف دواء جديد). قد يحدث الشيء نفسه مع أبحاث الذكاء الاصطناعي - على الرغم من أن الذكاء الاصطناعي سيجعل البحث عن الذكاء الاصطناعي الجديد أكثر إنتاجية ، فقد لا يكون هناك انفجار بسبب التطورات الجديدة التي أصبحت أكثر صعوبة في العثور عليها.

الفشل في فهم الأسي مرة أخرى؟ محادثتي مع @Mononofu - جوليان شريتويزر (@AnthropicAI ، AlphaGo Zero ، MuZero) - في Move 37 ، Scaling RL ، جائزة نوبل لعام الذكاء الاصطناعي ، والحدود الذكاء الاصطناعي: 00:00 - الفتح البارد: "لا نشهد أي تباطؤ". 00:32 - مقدمة — قابل جوليان 01:09 - "الأسي" من داخل المختبرات الحدودية 04:46 - 2026-2027: الوكلاء الذين يعملون ليوم كامل. اتساع على مستوى الخبراء 08:58 - المعايير مقابل الواقع: العمل طويل الأفق ، الناتج المحلي الإجمالي - القيمة ، قيمة المستخدم 10:26 - الخطوة 37 - ما حدث بالفعل ولماذا كان مهما 13:55 - علم جديد: AlphaCode / AlphaTensor → متى الذكاء الاصطناعي يحصل على جائزة نوبل؟ 16:25 - الانقطاع مقابل التقدم السلس (وعلامات التحذير) 19:08 - هل التدريب المسبق + RL يوصلنا إلى هناك؟ (بغض النظر عن مناقشات الذكاء الاصطناعي العام) 20:55 - "RL من الصفر" لساتون؟ جوليان 23:03 - مسار جوليان: Google → DeepMind → Anthropic 26:45 - AlphaGo (تعلم + بحث) بلغة إنجليزية بسيطة 30:16 - AlphaGo Zero (لا توجد بيانات بشرية) 31:00 - AlphaZero (خوارزمية واحدة: Go ، الشطرنج ، shogi) 31:46 - MuZero (التخطيط بنموذج عالم متعلم) 33:23 -دروس لوكلاء اليوم: البحث + التعلم على نطاق واسع 34:57 - هل لدى LLMs بالفعل نماذج عالمية ضمنية؟ 39:02 - لماذا استغرق RL على LLMs وقتا (الاستقرار ، حلقات التغذية الراجعة) 41:43 - الحوسبة والقياس ل RL - ما نراه حتى الآن 42:35 - حدود المكافآت: الأفضليات البشرية ، القواعد ، RLVR ، مكافآت العملية 44:36 - بيانات تدريب RL و "دولاب الموازنة" (ولماذا الجودة مهمة) 48:02 - RL & Agents 101 - لماذا تفتح RL المتانة 50:51 - هل يجب على المنشئين استخدام RL-كخدمة؟ أو مجرد أدوات + مطالبات؟ 52:18 - ما هو مفقود للوكلاء الذين يمكن الاعتماد عليهم (القدرة مقابل الهندسة) 53:51 - Evals & Goodhart - المعايير الداخلية مقابل النقاط الخارجية 57:35 - التفسير الميكانيكي و "البوابة الذهبية كلود" 1:00:03 - السلامة والمحاذاة في Anthropic - كيف تظهر في الممارسة العملية 1:03:48 - الوظائف: التكامل بين الإنسان الذكاء الاصطناعي (ميزة نسبية) 1:06:33 - عدم المساواة والسياسة وقضية الإنتاجية → الوفرة بنسبة 10× 1:09:24 - الأفكار إغلاق

بيان من OpenAI CISO بعنوان: التخفيف من مخاطر الحقن الفوري في أطلس

بالأمس أطلقنا ChatGPT Atlas ، متصفح الويب الجديد الخاص بنا. في Atlas ، يمكن لوكيل ChatGPT إنجاز المهام نيابة عنك. نحن متحمسون لرؤية كيف تجعل هذه الميزة العمل والحياة اليومية أكثر كفاءة وفعالية للأشخاص. وكيل ChatGPT قوي ومفيد ، ومصمم ليكون آمنا ، ولكن لا يزال بإمكانه ارتكاب أخطاء (مفاجئة في بعض الأحيان!) ، مثل محاولة شراء منتج خاطئ أو نسيان تسجيل الوصول معك قبل اتخاذ إجراء مهم. أحد المخاطر الناشئة التي نبحث عنها بعناية وتخفيفها هو الحقن الفوري ، حيث يخفي المهاجمون تعليمات ضارة في مواقع الويب أو رسائل البريد الإلكتروني أو مصادر أخرى ، لمحاولة خداع العميل للتصرف بطرق غير مقصودة. يمكن أن يكون هدف المهاجمين بسيطا مثل محاولة تحيز رأي الوكيل أثناء التسوق ، أو نتيجة مثل محاولة المهاجم إقناع العميل بجلب البيانات الخاصة وتسريبها ، مثل المعلومات الحساسة من بريدك الإلكتروني أو بيانات الاعتماد. هدفنا على المدى الطويل هو أن تكون قادرا على الوثوق بوكيل ChatGPT لاستخدام متصفحك ، بنفس الطريقة التي تثق بها في زميلك أو صديقك الأكثر كفاءة وجديرة بالثقة ووعيا بالأمان. نحن نعمل بجد لتحقيق ذلك. في هذا الإطلاق ، قمنا بإجراء فريق أحمر مكثف ، ونفذنا تقنيات تدريب نموذجية جديدة لمكافأة النموذج على تجاهل التعليمات الضارة ، ونفذنا حواجز حماية متداخلة وتدابير أمان ، وأضفنا أنظمة جديدة لاكتشاف مثل هذه الهجمات ومنعها. ومع ذلك ، يظل الحقن الفوري مشكلة أمنية حدودية لم يتم حلها ، وسيقضي خصومنا وقتا وموارد كبيرة لإيجاد طرق لجعل عميل ChatGPT يقع في هذه الهجمات. لحماية مستخدمينا وللمساعدة في تحسين نماذجنا ضد هذه الهجمات: 1. لقد أعطينا الأولوية لأنظمة الاستجابة السريعة لمساعدتنا في تحديد حملات هجمات الحظر بسرعة عندما ندرك بها. 2. نواصل أيضا الاستثمار بكثافة في الأمن والخصوصية والسلامة - بما في ذلك البحث لتحسين متانة نماذجنا وأجهزة مراقبة الأمان وضوابط أمان البنية التحتية وغيرها من التقنيات للمساعدة في منع هذه الهجمات عبر الدفاع بعمق. 3. لقد صممنا Atlas لمنحك عناصر تحكم للمساعدة في حماية نفسك. لقد أضفنا ميزة للسماح لوكيل ChatGPT باتخاذ إجراء نيابة عنك ، ولكن دون الوصول إلى بيانات الاعتماد الخاصة بك تسمى "وضع تسجيل الخروج". نوصي بهذا الوضع عندما لا تحتاج إلى اتخاذ إجراء داخل حساباتك. اليوم ، نعتقد أن "وضع تسجيل الدخول" هو الأنسب للإجراءات ذات النطاق الجيد على المواقع الموثوقة للغاية ، حيث تكون مخاطر الحقن الفوري أقل. يعد مطالبته بإضافة مكونات إلى عربة التسوق أكثر أمانا بشكل عام من طلب واسع أو غامض مثل "مراجعة رسائل البريد الإلكتروني الخاصة بي واتخاذ أي إجراءات مطلوبة". 4. عندما يعمل الوكيل على مواقع حساسة ، قمنا أيضا بتنفيذ "وضع المشاهدة" الذي ينبهك إلى الطبيعة الحساسة للموقع ويتطلب أن يكون لديك علامة التبويب نشطة لمشاهدة الوكيل يقوم بعمله. سيتوقف الوكيل مؤقتا إذا ابتعدت عن علامة التبويب التي تحتوي على معلومات حساسة. يضمن ذلك أن تظل على دراية - والتحكم - في إجراءات الوكيل التي ينفذها الوكيل. بمرور الوقت ، نخطط لإضافة المزيد من الميزات والدرابزين وعناصر التحكم في السلامة لتمكين وكيل ChatGPT من العمل بأمان وأمان عبر سير العمل الفردي والمؤسسي. تتطلب المستويات الجديدة من الذكاء والقدرة التكنولوجيا والمجتمع واستراتيجية التخفيف من المخاطر للتطور المشترك. وكما هو الحال مع فيروسات الكمبيوتر في أوائل عام 2000 ، نعتقد أنه من المهم للجميع فهم الاستخدام المسؤول ، بما في ذلك التفكير في هجمات الحقن السريعة ، حتى نتمكن جميعا من تعلم الاستفادة من هذه التكنولوجيا بأمان. نحن متحمسون لرؤية كيف سيقوم وكيل ChatGPT بتمكين سير العمل الخاص بك في أطلس ، ونحن مصممون في مهمتنا لبناء تقنيات الذكاء الاصطناعي الأكثر أمانا وخصوصية وأمانا لصالح البشرية جمعاء.

الأفضل

المُتصدِّرة

التطبيقات المفضلة