«Усі кажуть, що оцінка штучного інтелекту важлива, тому давайте фактично створимо його з нуля». Ось мій новий епізод з @_amankhan (Arize), де ми створюємо AI-евал для агента підтримки клієнтів у прямому ефірі, зокрема: ✅ Створення критеріїв eval ✅ Маркування золотого набору даних ✅ Узгодження суддів LLM з людськими оцінками Деякі думки від Амана: 1. ПМ повинні самі робити ручне маркування. «Я ніколи не вважав корисним доручати людські послуги підрядникам. Прем'єр-міністр повинен бути в електронній таблиці, щоб зберігати здоровий глузд». 2. Заздалегідь визначте, як виглядає хороший/середній/поганий за такими критеріями, як точність і тон. Ця рубрика стане вашою рубрикою для послідовного оцінювання в команді. 3. Переконайтеся, що ваші судді LLM співпадають з вашими людськими балами, перш ніж оцінювати. Спочатку перевірте суддів на кількох десятках кейсів і прагніть до показника збігу не менше 80%+. 📌 Дивіться зараз: Також доступно на: Spotify: Яблуко: Бюлетень:
21,9K