المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Prime Intellect
Prime Intellect أعاد النشر
.@willccbb (قائد الأبحاث ، Prime Intellect) حول كيفية عمل بيئات RL حقا:
"البيئة هي في الأساس إيفال. لديك مهام إدخال ، وحزام ، وفي النهاية يسجل كيفية أداء نموذجك أو وكيلك. هذا هو الإعداد الذي نستخدمه لكل من تدريب evals و RL ".
ويضيف أن المستقبل لا يقتصر فقط على "الحصول على 100,000 وحدة معالجة رسومات في مجموعة عملاقة واحدة".
12.31K
Prime Intellect أعاد النشر
في عصر التدريب المسبق ، كان ما يهم هو نص الإنترنت. ستحتاج في المقام الأول إلى مجموعة كبيرة ومتنوعة وعالية الجودة من مستندات الإنترنت للتعلم منها.
في عصر الضبط الدقيق الخاضع للإشراف ، كانت المحادثات. يتم تعيين العمال المتعاقدين لإنشاء إجابات للأسئلة ، تشبه إلى حد ما ما تراه في Stack Overflow / Quora ، أو إلخ ، ولكنها موجهة نحو حالات استخدام LLM.
لن يختفي أي من الاثنين أعلاه (imo) ، ولكن في عصر التعلم المعزز هذا ، أصبح الآن بيئات. على عكس ما سبق ، فإنها تمنح LLM فرصة للتفاعل الفعلي - اتخاذ الإجراءات ، ورؤية النتائج ، وما إلى ذلك. هذا يعني أنه يمكنك أن تأمل في القيام بعمل أفضل بكثير من تقليد الخبراء الإحصائيين. ويمكن استخدامها للتدريب والتقييم على حد سواء. ولكن تماما كما كان من قبل ، فإن المشكلة الأساسية الآن هي الحاجة إلى مجموعة كبيرة ومتنوعة وعالية الجودة من البيئات ، كتمارين لماجستير القانون للتدرب عليها.
في بعض النواحي ، أتذكر أول مشروع ل OpenAI (صالة الألعاب الرياضية) ، والذي كان بالضبط إطارا يأمل في بناء مجموعة كبيرة من البيئات في نفس المخطط ، ولكن هذا كان قبل LLMs. لذلك كانت البيئات عبارة عن مهام تحكم أكاديمية بسيطة في ذلك الوقت ، مثل عربة العربة ، ATARI ، إلخ. يقوم مركز البيئات @PrimeIntellect (ومستودع "المدققين" على GitHub) ببناء الإصدار الحديث الذي يستهدف على وجه التحديد LLMs ، وهو جهد / فكرة رائعة. لقد عرضت أن شخصا ما يبني شيئا كهذا في وقت سابق من هذا العام:
تتمتع البيئات بخاصية أنه بمجرد وضع الهيكل العظمي للإطار ، يمكن من حيث المبدأ للمجتمع / الصناعة أن يتوازى عبر العديد من المجالات المختلفة ، وهو أمر مثير.
الفكرة النهائية - شخصيا وعلى المدى الطويل ، أنا متفائل بشأن البيئات والتفاعلات الوكيلة ولكني متفائل بشأن التعلم المعزز على وجه التحديد. أعتقد أن وظائف المكافأة هي سوس فائق ، وأعتقد أن البشر لا يستخدمون RL للتعلم (ربما يفعلون ذلك لبعض المهام الحركية وما إلى ذلك ، ولكن ليس مهام حل المشكلات الفكرية). يستخدم البشر نماذج تعليمية مختلفة أكثر قوة بشكل ملحوظ وكفاءة في العينة ولم يتم اختراعها وقياسها بشكل صحيح حتى الآن ، على الرغم من وجود الرسومات والأفكار المبكرة (كمثال واحد فقط ، فكرة "التعلم الفوري للنظام" ، ونقل التحديث إلى الرموز / السياقات وليس الأوزان والتقطير اختياريا إلى الأوزان كعملية منفصلة مثل النوم).
372.6K
Prime Intellect أعاد النشر
سيتم بناء الجيل التالي من منتجات التقييم 10B + الناشئة من خلال توسيع نطاق التدريب على بيئة RL الداخلية
نحن نعيش في وفرة من القدرات ومع ذلك ليس لدينا سوى منتجين رئيسيين من الذكاء الاصطناعي ، chatgpt وعامل الترميز ، وهذا يحبطني بشدة
سلسلة التوريد الحالية للذكاء الاصطناعي مكسورة هيكليا مع بائع أجهزة واحد ، وزوجان من لاعبي الذكاء الاصطناعي العملاقين اللذين يمتلكان جميع مصفاة الذكاء ، ويترك المطور مع وصول إلى واجهة برمجة التطبيقات بالكاد بدون تحكم
كما لو أن عصر الإنترنت قد تم بناؤه مع بيع Intel لوحدة المعالجة المركزية إلى 4 سحابة عملاقة تمتلك البنية التحتية الكاملة ومجموعة البرامج مع السر و nda في كل مكان وإعطاء WordPress كمجموعة تطوير لبدء التشغيل
لماذا لم يخترع الحيرة بحثا عميقا؟ لم يتمكنوا من ذلك لأنه يتدرب مع RL
توقعاتي للسنوات القادمة:
ستصبح RL أقوى مجموعة أدوات لبدء التشغيل لبناء منتج الذكاء الاصطناعي. سنرى مئات من قصص النجاح مثل المؤشر والمحبوب. سيستفيد المستخدم النهائي منه أكثر من غيره
ستتطور المختبرات الكبيرة نحو شركة المنتجات ، وستركز oai على السوق الاستهلاكية ، و Antropic على عامل الترميز ، وستقوم deepmind بدمج الذكاء الاصطناعي في جميع شركات google ، والقتال meta و XAI على وسائل التواصل الاجتماعي
سنرى ظهور نظام بيئي لبدء تشغيل البنية التحتية لمنظمة الذكاء الاصطناعي ، وبيع الحوسبة ، ونموذج أساس التدريب ، وتنظيم البيانات ، وبناء بيئة RL ، وتقديم الاستدلال والتدريب الرخيص ، مدعوما بالعلم المفتوح والبرمجيات مفتوحة المصدر.
@PrimeIntellect هي رائدة في هذا النظام البيئي ورؤية AGI مفتوحة المصدر ، فإن RL Environment Hub هي واحدة من القطع الرئيسية الأولى
3.23K
Prime Intellect أعاد النشر
سيتم بناء الجيل التالي من منتجات التقييم 10B + الناشئة من خلال توسيع نطاق التدريب على بيئة RL الداخلية
نحن نعيش في وفرة من القدرات ومع ذلك ليس لدينا سوى منتجين رئيسيين من الذكاء الاصطناعي ، chatgpt وعامل الترميز ، وهذا يحبطني بشدة
سلسلة التوريد الحالية للذكاء الاصطناعي مكسورة هيكليا مع بائع أجهزة واحد ، وزوجان من لاعبي الذكاء الاصطناعي العملاقين اللذين يمتلكان جميع مصفاة الذكاء ، ويترك المطور مع وصول إلى واجهة برمجة التطبيقات بالكاد بدون تحكم
كما لو أن عصر الإنترنت قد تم بناؤه مع بيع Intel لوحدة المعالجة المركزية إلى 4 سحابة عملاقة تمتلك البنية التحتية الكاملة ومجموعة البرامج مع السر و nda في كل مكان وإعطاء WordPress كمجموعة تطوير لبدء التشغيل
لماذا لم يخترع الحيرة بحثا عميقا؟ لم يتمكنوا من ذلك لأنه يتدرب مع RL
** توقعاتي للسنوات القادمة **:
ستصبح RL أقوى مجموعة أدوات لبدء التشغيل لبناء منتج الذكاء الاصطناعي. سنرى مئات من قصص النجاح مثل المؤشر والمحبوب. سيستفيد المستخدم النهائي منه أكثر من غيره
ستتطور المختبرات الكبيرة نحو شركة المنتجات ، وستركز oai على السوق الاستهلاكية ، و Antropic على عامل الترميز ، وستقوم deepmind بدمج الذكاء الاصطناعي في جميع شركات google ، والقتال meta و XAI على وسائل التواصل الاجتماعي
سنرى ظهور نظام بيئي لبدء تشغيل البنية التحتية لمنظمة الذكاء الاصطناعي ، وبيع الحوسبة ، ونموذج أساس التدريب ، وتنظيم البيانات ، وبناء بيئة RL ، وتقديم الاستدلال والتدريب الرخيص ، مدعوما بالعلم المفتوح والبرمجيات مفتوحة المصدر.
@PrimeIntellect هي رائدة في هذا النظام البيئي ورؤية AGI مفتوحة المصدر ، فإن RL Environment Hub هي واحدة من القطع الرئيسية الأولى
6.49K
الأفضل
المُتصدِّرة
التطبيقات المفضلة