المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
"يقول الجميع إن تقييمات الذكاء الاصطناعي مهمة ، لذلك دعونا نبني تقييما مباشرا من الصفر."
إليكم حلقتي الجديدة مع @_amankhan (Arize) حيث نقوم ببناء الذكاء الاصطناعي evals لوكيل دعم العملاء مباشرة ، بما في ذلك:
✅ إنشاء معايير التقييم
✅ تسمية مجموعة البيانات الذهبية
✅ مواءمة حكام ماجستير القانون مع الدرجات البشرية
بعض الأفكار من أمان:
1. يجب على PMs القيام بوضع العلامات اليدوية بأنفسهم. "لم أجد أبدا أنه من المفيد الاستعانة بمصادر خارجية للمقاولين. يجب أن يكون رئيس الوزراء في جدول البيانات للحفاظ على الحكم الجيد ".
2. حدد الشكل الجيد / المتوسط / السيئ وفقا لمعايير مثل الدقة والنغمة مقدما. يصبح هذا نموذجك للتقييم المتسق عبر فريقك.
3. تأكد من توافق حكام LLM مع درجاتك البشرية قبل التوسع. اختبر الحكام في بضع عشرات من الحالات أولا واستهدف 80٪ + على الأقل من معدل المطابقة.
📌 شاهد الآن:
متاح أيضا على:
سبوتيفي:
تفاح:
الرساله الاخباريه:
21.91K
الأفضل
المُتصدِّرة
التطبيقات المفضلة