المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Kirill Balakhonov | Nethermind
منشئ AuditAgent | الذكاء الاصطناعي × التشفير × المنتج | بناء الاقتصاد الوكيل
لقد أجرينا للتو أول اختبار مباشر ل Nethermind AgentArena مع مستخدم حقيقي - وعمل من طرف إلى طرف دون الإمساك باليد. بالنسبة للسياق ، هذه منصة يتنافس فيها وكلاء أمان الذكاء الاصطناعي المستقلون للعثور على نقاط الضعف في العقود الذكية. فكر في Code4rena أو Sherlock ، ولكن تم قياسه بالساعات بدلا من الأسابيع وبتكلفة أقل بكثير.
في هذا الإصدار التجريبي ، قام المستخدم بإعداد كل شيء بمفرده: منح حق الوصول إلى الريبو على GitHub ، واختيار المستندات ذات الصلة ، والتعامل مع الأسئلة والأجوبة ، وتعيين مكافأة (حتى الآن كانت في الرموز المميزة للاختبار ، ستكون USDC قريبا) ، وأطلق المسابقة - وبدأ الوكلاء العمل على الفور. لدينا بالفعل الطلبات الأولى ، وتغلق نافذة التقديم غدا.
كان أفضل جزء هو مشاهدة الرحلة الكاملة وهي تسير بسلاسة. لا يوجد ارتباك حرج ، ولا خطوات محظورة ، مجرد مسابقة بدأت وبدأت في إنتاج إشارة. بعد ذلك ، سنرسل النتائج من خلال فرز يدوي حتى لا يضطر المستخدمون إلى الخوض في الإيجابيات الخاطئة. هذه الطبقة البشرية في الحلقة هي المكان الذي يتألق فيه الذكاء الاصطناعي في الممارسة: ليس وعدا بأن "الاستقلالية تحل كل شيء" ، ولكن سير عمل حيث يجعل الأشخاص والنماذج بعضهم البعض أفضل.
AgentArena هو مكمل قوي لمنصة Nethermind AuditAgent: عرض عالي اللمس حيث يساهم المزيد من الوكلاء والمطورين المستقلين ، وحيث غالبا ما يدفع الاستثمار الإضافي في الأمان تكاليفه. نحن نشهد المزيد والمزيد من النتائج عالية الجودة التي تظهر من تعاون الخبراء + الذكاء الاصطناعي. التقدم لا يتباطأ - وفي @NethermindEth نخطط للبقاء في المقدمة ، ودفع حافة ما هو ممكن.

2.52K
تطور التعلم قليل اللقطات لدراسات القانون الحديثة باستخدام @NethermindEth AuditAgent كمثال.
أدناه يمكنك رؤية رسم بياني مثير للاهتمام ، أو بالأحرى مقارنة بين عدد الثغرات الأمنية التي تم تحديدها بشكل صحيح بواسطة منتجنا مقارنة بشركات LLMs الجاهزة مثل @OpenAI GPT-5 أو @AnthropicAI Claude Opus 4.1 أو @Google Gemini 2.5 Pro أو @xai Grok-4.
بالطبع ، الجزء الواضح من هذه المقارنة ، الذي أظهرته عدة مرات من قبل ولا يوجد شيء جديد فيه ، هو أن الوكيل المتخصص سيتفوق دائما على حل الأغراض العامة. يتم تفسير هذا الموقف بسهولة تامة من خلال حقيقة أن جميع الحلول للأغراض العامة هي جزء من حلنا المتخصص ، على الرغم من أن المساهمة الأكبر في النتيجة تأتي من إدارة السياق المناسبة أو ما @karpathy أطلق عليه مؤخرا "هندسة السياق".
بالإضافة إلى ذلك ، فإن استخدام الأدوات الصحيحة واختيارها - سيواجه نموذج الأغراض العامة دائما مشاكل نظرا لوجود مليارات الأدوات وتعلم استخدامها جميعا هو مهارة كبيرة منفصلة ، بينما نقوم بتعليم نموذجنا المتخصص هذا صراحة. ثم هناك استخدام قواعد المعرفة الصحيحة وخوارزميات البحث المناسبة لهم ، وما إلى ذلك. لذلك بطريقة أو بأخرى ، نفعل كل ما هو ممكن ، ونستخدم جميع الأدوات الممكنة للتغلب على هذه الحلول للأغراض العامة.
لكن الفارق الدقيق المثير للاهتمام الذي أردت لفت الانتباه إليه هو أنه إذا نظرت إلى الصورة التي نشرتها قبل عام أو نحو ذلك ، فإن أفضل الحلول الجاهزة كانت OpenAI أو نماذج Anthropic مع ملصق "تعلم اللقطات القليلة" ، بينما الآن جميع الحلول الجاهزة هي الفانيليا. وقد حدث هذا التغيير تدريجيا مع ظهور المنطق على هذا النحو في النماذج ومع تحسين جودته. الاستنتاج الذي يمكن استخلاصه هو أن أمثلة الحلول الصحيحة الجاهزة التي يتلقاها النموذج منا كتعلم في السياق ، عندما نعرضها حرفيا في الموجه ، توقف عن المساعدة في حل المهمة ، أو بتعبير أدق ، بدونها النموذج الذي يمكن أن يحل المشكلة بشكل أفضل. أي أننا نحد إلى حد ما من قدراتها من خلال إظهار العديد من الأمثلة التي اخترناها.
بالإضافة إلى ذلك ، هناك جانب مثير للاهتمام وهو أن النماذج التي تتمتع بإمكانية الوصول إلى الإنترنت والاختيار التلقائي لهذه الأداة تبدأ أيضا في التفوق على كل شيء ، مما يعني أن النموذج يمكن أن ينتقل إلى الإنترنت نفسه ويصوغ السياق المناسب لنفسه. نعم ، بالطبع هناك خطر من أن يجد النموذج الإجابة الصحيحة ، ولكن بطبيعة الحال نحن نعمل على وجه التحديد مع هذا ، فنقوم بوضع القائمة السوداء للمواقع وما إلى ذلك ، لذلك نحاول عدم الحصول على مثل هذا التسرب في البيانات (القياس الصحيح هو المفتاح بشكل عام). لكن الاتجاه مثير للاهتمام - أصبحت النماذج أكثر ذكاء وتتعامل مع المزيد والمزيد من مكونات الحل نفسها ، ولا تتطلب من المطورين إجراء إعدادات معينة بشكل صريح في السياق.
ما هي تجربتك مع هذا؟

763
الأفضل
المُتصدِّرة
التطبيقات المفضلة