دعنا نقارن OpenAI gpt-oss و Qwen-3 في الرياضيات والتفكير:
Before we dive in, here's a quick demo of what we're building! Tech stack: - @LiteLLM for orchestration - @Cometml's Opik to build the eval pipeline (open-source) - @OpenRouterAI to access the models You'll also learn about G-Eval & building custom eval metrics. Let's go! 🚀
إليك سير العمل: - يرسل المستخدم استفسار - يولد كلا النموذجين رموز منطقية جنبا إلى جنب مع الاستجابة النهائية - يتم إرسال منطق الاستعلام والاستجابة والتفكير للتقييم - يتم إجراء التقييم التفصيلي باستخدام G-Eval من Opik عبر أربعة مقاييس. دعونا ننفذ هذا!
1️⃣ تحميل مفاتيح API في هذا العرض التوضيحي ، سنستخدم OpenRouter للوصول إلى طرازي gpt-oss و Qwen3. مفتاح OpenAI مطلوب للقاضي LLM في G-Eval. قم بتخزين مفاتيح OpenRouter وOpenAI API في ملف .env لتحميلها في البيئة. تحقق من هذا 👇
2️⃣ مقياس التفكير المنطقي سنقوم الآن بإنشاء مقاييس تقييم لمهمتنا باستخدام G-Eval من Opik. يقيم هذا المقياس تماسك وصحة الخطوات والاستنتاجات المنطقية. تحقق من هذا 👇
3️⃣ مقياس الدقة الواقعية يقيم هذا المقياس دقة الادعاءات والمعلومات الواقعية. تحقق من هذا 👇
4️⃣ مقياس التماسك يقيم هذا المقياس وضوح الاستجابة وتنظيمها. تحقق من هذا 👇
5️⃣ مقياس عمق التحليل يقيم هذا المقياس عمق المنطق وبصيرة. تحقق من هذا 👇
6️⃣ توليد استجابة النموذج الآن نحن جميعا مستعدون لإنشاء استجابات من كلا النموذجين. نقوم بإدخال الاستعلام في مربع المطالبة وتدفق الردود من كلا النموذجين في وقت واحد. تحقق من هذا 👇
7️⃣ تقييم المنطق الذي تم إنشاؤه أخيرا ، نستخدم GPT-4o بصفته قاضيا LLM. يقوم بتقييم كل من استجابات المنطق ، وإنشاء المقاييس المذكورة أعلاه ، وتوفير تفاصيل لكل مقياس. تحقق من هذا 👇
حان وقت الاختبار.. (1/2) الاستعلام 1: قم بإنشاء خادم MCP يشاهد مستودع GitHub للمشكلات الجديدة ويرسلها إلى مجموعة Telegram. فيما يلي النتائج التفصيلية:
حان وقت الاختبار.. (2/2) الاستعلام 2: إنشاء خادم MCP ينشئ صفحة Notion جديدة عندما يسقط شخص ما ملفا في مجلد Google Drive معين. فيما يلي النتائج التفصيلية:
كلا الطرازين يتمتعان بقدرة عالية: يقدم Qwen 3 تفكيرا مطولا ومفصلا ، بينما GPT-oss واضح ودقيق. لا تتردد في اختباره على استعلامات أكثر صعوبة. إليك كل التعليمات البرمجية:
إذا وجدت أنها ثاقبة ، فأعد مشاركتها مع شبكتك. ابحث عني → @akshay_pachaar✔️ لمزيد من الأفكار والبرامج التعليمية حول LLMs ووكلاء الذكاء الاصطناعي والتعلم الآلي!
Akshay 🚀
Akshay 🚀‏6 أغسطس، 21:29
دعنا نقارن OpenAI gpt-oss و Qwen-3 في الرياضيات والتفكير:
حان وقت الاختبار.. (1/2) الاستعلام 1: حلزون يتسلق جدارا يبلغ ارتفاعه 10 أقدام. كل يوم يتسلق 3 أقدام ، لكنه ينزلق كل ليلة إلى الخلف 2 قدم. في أي يوم ستصل إلى القمة؟ فيما يلي النتائج التفصيلية:
حان وقت الاختبار.. (2/2) الاستعلام 2: عربة هاربة تتجه نحو 5 أشخاص. يمكنك سحب رافعة لتحويلها إلى مسار جانبي حيث ستقتل شخصا واحدا بدلا من ذلك. ماذا يجب أن تفعل ولماذا؟ فيما يلي النتائج التفصيلية:
كلا الطرازين يتمتعان بقدرة عالية: يقدم Qwen 3 تفكيرا مطولا ومفصلا ، بينما GPT-oss واضح ودقيق. لا تتردد في اختباره على استعلامات أكثر صعوبة. إليك كل التعليمات البرمجية:
إذا وجدت أنها ثاقبة ، فأعد مشاركتها مع شبكتك. ابحث عني → @akshay_pachaar✔️ لمزيد من الأفكار والبرامج التعليمية حول LLMs ووكلاء الذكاء الاصطناعي والتعلم الآلي!
Akshay 🚀
Akshay 🚀‏6 أغسطس، 21:29
دعنا نقارن OpenAI gpt-oss و Qwen-3 في الرياضيات والتفكير:
‏‎300.64‏K