"Все говорят, что оценки AI важны, так что давайте на самом деле создадим одну вживую с нуля." Вот мой новый эпизод с @_amankhan (Arize), где мы создаем оценки AI для агента поддержки клиентов вживую, включая: ✅ Создание критериев оценки ✅ Разметка золотого набора данных ✅ Согласование судей LLM с человеческими оценками Некоторые идеи от Аман: 1. PM должны сами делать ручную разметку. "Я никогда не считал полезным передавать человеческие оценки подрядчикам. PM должен быть в таблице, чтобы поддерживать хорошее суждение." 2. Определите, как выглядит хорошее/среднее/плохое по критериям, таким как точность и тон, заранее. Это станет вашей рубрикой для последовательной оценки в вашей команде. 3. Убедитесь, что ваши судьи LLM согласуются с вашими человеческими оценками, прежде чем масштабировать. Протестируйте судей на нескольких десятках случаев сначала и стремитесь к как минимум 80%+ совпадению. 📌 Смотрите сейчас: Также доступно на: Spotify: Apple: Рассылка:
23,9K