Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
«Усі кажуть, що оцінка штучного інтелекту важлива, тому давайте фактично створимо його з нуля».
Ось мій новий епізод з @_amankhan (Arize), де ми створюємо AI-евал для агента підтримки клієнтів у прямому ефірі, зокрема:
✅ Створення критеріїв eval
✅ Маркування золотого набору даних
✅ Узгодження суддів LLM з людськими оцінками
Деякі думки від Амана:
1. ПМ повинні самі робити ручне маркування. «Я ніколи не вважав корисним доручати людські послуги підрядникам. Прем'єр-міністр повинен бути в електронній таблиці, щоб зберігати здоровий глузд».
2. Заздалегідь визначте, як виглядає хороший/середній/поганий за такими критеріями, як точність і тон. Ця рубрика стане вашою рубрикою для послідовного оцінювання в команді.
3. Переконайтеся, що ваші судді LLM співпадають з вашими людськими балами, перш ніж оцінювати. Спочатку перевірте суддів на кількох десятках кейсів і прагніть до показника збігу не менше 80%+.
📌 Дивіться зараз:
Також доступно на:
Spotify:
Яблуко:
Бюлетень:
21,9K
Найкращі
Рейтинг
Вибране