متجر التطبيق اللامركزي | مركز Web3 للأحداث والألعاب

المواضيع الرائجة

تقنية بسيطة تجعل ذاكرة RAG ~ 32x فعالة! - يستخدمه Perplexity في فهرس البحث الخاص به - يستخدمه Azure في مسار البحث الخاص به - تستخدمه HubSpot في مساعد الذكاء الاصطناعي الخاص بها دعنا نفهم كيفية استخدامه في أنظمة RAG (مع الكود):

اليوم ، دعنا نبني نظام RAG يستعلم عن 36M + vectors في <30ms باستخدام التكميم الثنائي. مكدس التكنولوجيا: - @llama_index للتنسيق - @milvusio كمتجه DB - @beam_cloud للنشر بلا خادم - @Kimi_Moonshot Kimi-K2 بصفته LLM المستضافة على Groq دعونا نبنيها!

إليك سير العمل: - استيعاب المستندات وإنشاء التضمينات الثنائية. - قم بإنشاء فهرس متجه ثنائي وتخزين التضمينات في قاعدة بيانات المتجه. - استرداد المستندات المشابهة top-k إلى استعلام المستخدم. - يقوم LLM بإنشاء استجابة بناء على سياق إضافي. دعونا ننفذ هذا!

0️⃣ إعداد Groq قبل أن نبدأ ، قم بتخزين مفتاح Groq API الخاص بك في ملف .env وقم بتحميله في بيئتك للاستفادة من أسرع استدلال الذكاء الاصطناعي في العالم. تحقق من هذا 👇

1️⃣ تحميل البيانات نقوم باستيعاب مستنداتنا باستخدام أداة قارئ الدليل الخاصة ب LlamaIndex. يمكنه قراءة تنسيقات البيانات المختلفة بما في ذلك Markdown و PDF ومستندات Word وطوابق PowerPoint والصور والصوت والفيديو. تحقق من هذا 👇

2️⃣ إنشاء تضمينات ثنائية بعد ذلك ، نقوم بإنشاء تضمينات نصية (في float32) وتحويلها إلى متجهات ثنائية ، مما يؤدي إلى تقليل الذاكرة والتخزين. وهذا ما يسمى التكميم الثنائي. تحقق من هذا التنفيذ 👇

3️⃣ فهرسة المتجهات بعد الانتهاء من التكميم الثنائي ، نقوم بتخزين وفهرسة المتجهات في قاعدة بيانات متجهات Milvus للاسترجاع الفعال. الفهارس هي هياكل بيانات متخصصة تساعد على تحسين أداء عمليات استرجاع البيانات. تحقق من هذا 👇

4️⃣ استرجاع في مرحلة الاسترجاع ، نقوم بما يلي: - قم بتضمين استعلام المستخدم وتطبيق التكميم الثنائي عليه. - استخدم مسافة هامينغ كمقياس بحث لمقارنة المتجهات الثنائية. - استرجع أفضل 5 أجزاء متشابهة. - أضف الأجزاء التي تم استردادها إلى السياق. تحقق من هذا👇

5️⃣ الجيل أخيرا ، قمنا ببناء خط أنابيب للتوليد باستخدام نموذج التوجيه Kimi-K2 ، الذي يتم تقديمه على أسرع استدلال الذكاء الاصطناعي بواسطة Groq. نحدد كلا من الاستعلام والسياق المسترد في قالب موجه ونمرره إلى LLM. تحقق من هذا 👇

6️⃣ النشر مع Beam يتيح Beam النشر فائق السرعة بدون خادم لأي سير عمل الذكاء الاصطناعي. وبالتالي ، نقوم بلف تطبيقنا في واجهة Streamlit ، ونحدد مكتبات Python ، ومواصفات الحوسبة للحاوية. أخيرا ، نقوم بنشر التطبيق في بضعة أسطر من التعليمات البرمجية👇

7️⃣ قم بتشغيل التطبيق يقوم Beam بتشغيل الحاوية ونشر تطبيقنا المبسط كخادم HTTPS يمكن الوصول إليه بسهولة من متصفح الويب. تحقق من هذا العرض التوضيحي 👇

للمضي قدما ، لتقييم النطاق وسرعة الاستدلال حقا ، نقوم باختبار الإعداد المنشور عبر مجموعة بيانات PubMed (36M + vectors). تطبيقنا: - تم الاستعلام عن 36 ميجا + متجهات في <30 مللي ثانية. - ولدت استجابة في <1. تحقق من هذا العرض التوضيحي👇

منجز! لقد قمنا للتو ببناء أسرع مكدس RAG للاستفادة من BQ للاسترجاع الفعال و استخدام النشر فائق السرعة بدون خادم لسير عمل الذكاء الاصطناعي لدينا. إليك سير العمل مرة أخرى للرجوع إليها 👇

هذا التفاف! إذا وجدت أنها ثاقبة ، فأعد مشاركتها مع شبكتك. ابحث عني → @_avichawla كل يوم ، أشارك البرامج التعليمية والرؤى حول DS و ML و LLMs و RAGs.

‏‎695.78‏K

الأفضل

المُتصدِّرة

التطبيقات المفضلة

رائج على السلسة

رائج على منصة X

أهم عمليات التمويل الأخيرة

الأبرز