تقنية بسيطة تجعل ذاكرة RAG ~ 32x فعالة! - يستخدمه Perplexity في فهرس البحث الخاص به - يستخدمه Azure في مسار البحث الخاص به - تستخدمه HubSpot في مساعد الذكاء الاصطناعي الخاص بها دعنا نفهم كيفية استخدامه في أنظمة RAG (مع الكود):
اليوم ، دعنا نبني نظام RAG يستعلم عن 36M + vectors في <30ms باستخدام التكميم الثنائي. مكدس التكنولوجيا: - @llama_index للتنسيق - @milvusio كمتجه DB - @beam_cloud للنشر بلا خادم - @Kimi_Moonshot Kimi-K2 بصفته LLM المستضافة على Groq دعونا نبنيها!
إليك سير العمل: - استيعاب المستندات وإنشاء التضمينات الثنائية. - قم بإنشاء فهرس متجه ثنائي وتخزين التضمينات في قاعدة بيانات المتجه. - استرداد المستندات المشابهة top-k إلى استعلام المستخدم. - يقوم LLM بإنشاء استجابة بناء على سياق إضافي. دعونا ننفذ هذا!
0️⃣ إعداد Groq قبل أن نبدأ ، قم بتخزين مفتاح Groq API الخاص بك في ملف .env وقم بتحميله في بيئتك للاستفادة من أسرع استدلال الذكاء الاصطناعي في العالم. تحقق من هذا 👇
1️⃣ تحميل البيانات نقوم باستيعاب مستنداتنا باستخدام أداة قارئ الدليل الخاصة ب LlamaIndex. يمكنه قراءة تنسيقات البيانات المختلفة بما في ذلك Markdown و PDF ومستندات Word وطوابق PowerPoint والصور والصوت والفيديو. تحقق من هذا 👇
2️⃣ إنشاء تضمينات ثنائية بعد ذلك ، نقوم بإنشاء تضمينات نصية (في float32) وتحويلها إلى متجهات ثنائية ، مما يؤدي إلى تقليل الذاكرة والتخزين. وهذا ما يسمى التكميم الثنائي. تحقق من هذا التنفيذ 👇
3️⃣ فهرسة المتجهات بعد الانتهاء من التكميم الثنائي ، نقوم بتخزين وفهرسة المتجهات في قاعدة بيانات متجهات Milvus للاسترجاع الفعال. الفهارس هي هياكل بيانات متخصصة تساعد على تحسين أداء عمليات استرجاع البيانات. تحقق من هذا 👇
4️⃣ استرجاع في مرحلة الاسترجاع ، نقوم بما يلي: - قم بتضمين استعلام المستخدم وتطبيق التكميم الثنائي عليه. - استخدم مسافة هامينغ كمقياس بحث لمقارنة المتجهات الثنائية. - استرجع أفضل 5 أجزاء متشابهة. - أضف الأجزاء التي تم استردادها إلى السياق. تحقق من هذا👇
5️⃣ الجيل أخيرا ، قمنا ببناء خط أنابيب للتوليد باستخدام نموذج التوجيه Kimi-K2 ، الذي يتم تقديمه على أسرع استدلال الذكاء الاصطناعي بواسطة Groq. نحدد كلا من الاستعلام والسياق المسترد في قالب موجه ونمرره إلى LLM. تحقق من هذا 👇
6️⃣ النشر مع Beam يتيح Beam النشر فائق السرعة بدون خادم لأي سير عمل الذكاء الاصطناعي. وبالتالي ، نقوم بلف تطبيقنا في واجهة Streamlit ، ونحدد مكتبات Python ، ومواصفات الحوسبة للحاوية. أخيرا ، نقوم بنشر التطبيق في بضعة أسطر من التعليمات البرمجية👇
7️⃣ قم بتشغيل التطبيق يقوم Beam بتشغيل الحاوية ونشر تطبيقنا المبسط كخادم HTTPS يمكن الوصول إليه بسهولة من متصفح الويب. تحقق من هذا العرض التوضيحي 👇
للمضي قدما ، لتقييم النطاق وسرعة الاستدلال حقا ، نقوم باختبار الإعداد المنشور عبر مجموعة بيانات PubMed (36M + vectors). تطبيقنا: - تم الاستعلام عن 36 ميجا + متجهات في <30 مللي ثانية. - ولدت استجابة في <1. تحقق من هذا العرض التوضيحي👇
منجز! لقد قمنا للتو ببناء أسرع مكدس RAG للاستفادة من BQ للاسترجاع الفعال و استخدام النشر فائق السرعة بدون خادم لسير عمل الذكاء الاصطناعي لدينا. إليك سير العمل مرة أخرى للرجوع إليها 👇
هذا التفاف! إذا وجدت أنها ثاقبة ، فأعد مشاركتها مع شبكتك. ابحث عني → @_avichawla كل يوم ، أشارك البرامج التعليمية والرؤى حول DS و ML و LLMs و RAGs.
Avi Chawla
Avi Chawla‏4 أغسطس، 14:33
تقنية بسيطة تجعل ذاكرة RAG ~ 32x فعالة! - يستخدمه Perplexity في فهرس البحث الخاص به - يستخدمه Azure في مسار البحث الخاص به - تستخدمه HubSpot في مساعد الذكاء الاصطناعي الخاص بها دعنا نفهم كيفية استخدامه في أنظمة RAG (مع الكود):
‏‎695.78‏K