المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
دعنا نقارن OpenAI gpt-oss و Qwen-3 في الرياضيات والتفكير:
Before we dive in, here's a quick demo of what we're building!
Tech stack:
- @LiteLLM for orchestration
- @Cometml's Opik to build the eval pipeline (open-source)
- @OpenRouterAI to access the models
You'll also learn about G-Eval & building custom eval metrics.
Let's go! 🚀
إليك سير العمل:
- يرسل المستخدم استفسار
- يولد كلا النموذجين رموز منطقية جنبا إلى جنب مع الاستجابة النهائية
- يتم إرسال منطق الاستعلام والاستجابة والتفكير للتقييم
- يتم إجراء التقييم التفصيلي باستخدام G-Eval من Opik عبر أربعة مقاييس.
دعونا ننفذ هذا!
1️⃣ تحميل مفاتيح API
في هذا العرض التوضيحي ، سنستخدم OpenRouter للوصول إلى طرازي gpt-oss و Qwen3.
مفتاح OpenAI مطلوب للقاضي LLM في G-Eval.
قم بتخزين مفاتيح OpenRouter وOpenAI API في ملف .env لتحميلها في البيئة.
تحقق من هذا 👇

2️⃣ مقياس التفكير المنطقي
سنقوم الآن بإنشاء مقاييس تقييم لمهمتنا باستخدام G-Eval من Opik.
يقيم هذا المقياس تماسك وصحة الخطوات والاستنتاجات المنطقية.
تحقق من هذا 👇

3️⃣ مقياس الدقة الواقعية
يقيم هذا المقياس دقة الادعاءات والمعلومات الواقعية.
تحقق من هذا 👇

4️⃣ مقياس التماسك
يقيم هذا المقياس وضوح الاستجابة وتنظيمها.
تحقق من هذا 👇

5️⃣ مقياس عمق التحليل
يقيم هذا المقياس عمق المنطق وبصيرة.
تحقق من هذا 👇

6️⃣ توليد استجابة النموذج
الآن نحن جميعا مستعدون لإنشاء استجابات من كلا النموذجين.
نقوم بإدخال الاستعلام في مربع المطالبة وتدفق الردود من كلا النموذجين في وقت واحد.
تحقق من هذا 👇

7️⃣ تقييم المنطق الذي تم إنشاؤه
أخيرا ، نستخدم GPT-4o بصفته قاضيا LLM.
يقوم بتقييم كل من استجابات المنطق ، وإنشاء المقاييس المذكورة أعلاه ، وتوفير تفاصيل لكل مقياس.
تحقق من هذا 👇

حان وقت الاختبار.. (1/2)
الاستعلام 1: قم بإنشاء خادم MCP يشاهد مستودع GitHub للمشكلات الجديدة ويرسلها إلى مجموعة Telegram.
فيما يلي النتائج التفصيلية:

حان وقت الاختبار.. (2/2)
الاستعلام 2: إنشاء خادم MCP ينشئ صفحة Notion جديدة عندما يسقط شخص ما ملفا في مجلد Google Drive معين.
فيما يلي النتائج التفصيلية:

كلا الطرازين يتمتعان بقدرة عالية: يقدم Qwen 3 تفكيرا مطولا ومفصلا ، بينما GPT-oss واضح ودقيق.
لا تتردد في اختباره على استعلامات أكثر صعوبة.
إليك كل التعليمات البرمجية:
إذا وجدت أنها ثاقبة ، فأعد مشاركتها مع شبكتك.
ابحث عني → @akshay_pachaar✔️
لمزيد من الأفكار والبرامج التعليمية حول LLMs ووكلاء الذكاء الاصطناعي والتعلم الآلي!

6 أغسطس، 21:29
دعنا نقارن OpenAI gpt-oss و Qwen-3 في الرياضيات والتفكير:
حان وقت الاختبار.. (1/2)
الاستعلام 1: حلزون يتسلق جدارا يبلغ ارتفاعه 10 أقدام. كل يوم يتسلق 3 أقدام ، لكنه ينزلق كل ليلة إلى الخلف 2 قدم. في أي يوم ستصل إلى القمة؟
فيما يلي النتائج التفصيلية:

حان وقت الاختبار.. (2/2)
الاستعلام 2: عربة هاربة تتجه نحو 5 أشخاص. يمكنك سحب رافعة لتحويلها إلى مسار جانبي حيث ستقتل شخصا واحدا بدلا من ذلك. ماذا يجب أن تفعل ولماذا؟
فيما يلي النتائج التفصيلية:

كلا الطرازين يتمتعان بقدرة عالية: يقدم Qwen 3 تفكيرا مطولا ومفصلا ، بينما GPT-oss واضح ودقيق.
لا تتردد في اختباره على استعلامات أكثر صعوبة.
إليك كل التعليمات البرمجية:
إذا وجدت أنها ثاقبة ، فأعد مشاركتها مع شبكتك.
ابحث عني → @akshay_pachaar✔️
لمزيد من الأفكار والبرامج التعليمية حول LLMs ووكلاء الذكاء الاصطناعي والتعلم الآلي!

6 أغسطس، 21:29
دعنا نقارن OpenAI gpt-oss و Qwen-3 في الرياضيات والتفكير:
300.64K
الأفضل
المُتصدِّرة
التطبيقات المفضلة