متجر التطبيق اللامركزي | مركز Web3 للأحداث والألعاب

دعنا نقارن OpenAI gpt-oss و Qwen-3 في الرياضيات والتفكير:

Before we dive in, here's a quick demo of what we're building! Tech stack: - @LiteLLM for orchestration - @Cometml's Opik to build the eval pipeline (open-source) - @OpenRouterAI to access the models You'll also learn about G-Eval & building custom eval metrics. Let's go! 🚀

إليك سير العمل: - يرسل المستخدم استفسار - يولد كلا النموذجين رموز منطقية جنبا إلى جنب مع الاستجابة النهائية - يتم إرسال منطق الاستعلام والاستجابة والتفكير للتقييم - يتم إجراء التقييم التفصيلي باستخدام G-Eval من Opik عبر أربعة مقاييس. دعونا ننفذ هذا!

1️⃣ تحميل مفاتيح API في هذا العرض التوضيحي ، سنستخدم OpenRouter للوصول إلى طرازي gpt-oss و Qwen3. مفتاح OpenAI مطلوب للقاضي LLM في G-Eval. قم بتخزين مفاتيح OpenRouter وOpenAI API في ملف .env لتحميلها في البيئة. تحقق من هذا 👇

2️⃣ مقياس التفكير المنطقي سنقوم الآن بإنشاء مقاييس تقييم لمهمتنا باستخدام G-Eval من Opik. يقيم هذا المقياس تماسك وصحة الخطوات والاستنتاجات المنطقية. تحقق من هذا 👇

3️⃣ مقياس الدقة الواقعية يقيم هذا المقياس دقة الادعاءات والمعلومات الواقعية. تحقق من هذا 👇

4️⃣ مقياس التماسك يقيم هذا المقياس وضوح الاستجابة وتنظيمها. تحقق من هذا 👇

5️⃣ مقياس عمق التحليل يقيم هذا المقياس عمق المنطق وبصيرة. تحقق من هذا 👇

6️⃣ توليد استجابة النموذج الآن نحن جميعا مستعدون لإنشاء استجابات من كلا النموذجين. نقوم بإدخال الاستعلام في مربع المطالبة وتدفق الردود من كلا النموذجين في وقت واحد. تحقق من هذا 👇

7️⃣ تقييم المنطق الذي تم إنشاؤه أخيرا ، نستخدم GPT-4o بصفته قاضيا LLM. يقوم بتقييم كل من استجابات المنطق ، وإنشاء المقاييس المذكورة أعلاه ، وتوفير تفاصيل لكل مقياس. تحقق من هذا 👇

حان وقت الاختبار.. (1/2) الاستعلام 1: قم بإنشاء خادم MCP يشاهد مستودع GitHub للمشكلات الجديدة ويرسلها إلى مجموعة Telegram. فيما يلي النتائج التفصيلية:

حان وقت الاختبار.. (2/2) الاستعلام 2: إنشاء خادم MCP ينشئ صفحة Notion جديدة عندما يسقط شخص ما ملفا في مجلد Google Drive معين. فيما يلي النتائج التفصيلية:

كلا الطرازين يتمتعان بقدرة عالية: يقدم Qwen 3 تفكيرا مطولا ومفصلا ، بينما GPT-oss واضح ودقيق. لا تتردد في اختباره على استعلامات أكثر صعوبة. إليك كل التعليمات البرمجية:

إذا وجدت أنها ثاقبة ، فأعد مشاركتها مع شبكتك. ابحث عني → @akshay_pachaar✔️ لمزيد من الأفكار والبرامج التعليمية حول LLMs ووكلاء الذكاء الاصطناعي والتعلم الآلي!

حان وقت الاختبار.. (1/2) الاستعلام 1: حلزون يتسلق جدارا يبلغ ارتفاعه 10 أقدام. كل يوم يتسلق 3 أقدام ، لكنه ينزلق كل ليلة إلى الخلف 2 قدم. في أي يوم ستصل إلى القمة؟ فيما يلي النتائج التفصيلية:

حان وقت الاختبار.. (2/2) الاستعلام 2: عربة هاربة تتجه نحو 5 أشخاص. يمكنك سحب رافعة لتحويلها إلى مسار جانبي حيث ستقتل شخصا واحدا بدلا من ذلك. ماذا يجب أن تفعل ولماذا؟ فيما يلي النتائج التفصيلية:

كلا الطرازين يتمتعان بقدرة عالية: يقدم Qwen 3 تفكيرا مطولا ومفصلا ، بينما GPT-oss واضح ودقيق. لا تتردد في اختباره على استعلامات أكثر صعوبة. إليك كل التعليمات البرمجية:

إذا وجدت أنها ثاقبة ، فأعد مشاركتها مع شبكتك. ابحث عني → @akshay_pachaar✔️ لمزيد من الأفكار والبرامج التعليمية حول LLMs ووكلاء الذكاء الاصطناعي والتعلم الآلي!