Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
"Все говорят, что оценки AI важны, так что давайте на самом деле создадим одну вживую с нуля."
Вот мой новый эпизод с @_amankhan (Arize), где мы создаем оценки AI для агента поддержки клиентов вживую, включая:
✅ Создание критериев оценки
✅ Разметка золотого набора данных
✅ Согласование судей LLM с человеческими оценками
Некоторые идеи от Аман:
1. PM должны сами делать ручную разметку. "Я никогда не считал полезным передавать человеческие оценки подрядчикам. PM должен быть в таблице, чтобы поддерживать хорошее суждение."
2. Определите, как выглядит хорошее/среднее/плохое по критериям, таким как точность и тон, заранее. Это станет вашей рубрикой для последовательной оценки в вашей команде.
3. Убедитесь, что ваши судьи LLM согласуются с вашими человеческими оценками, прежде чем масштабировать. Протестируйте судей на нескольких десятках случаев сначала и стремитесь к как минимум 80%+ совпадению.
📌 Смотрите сейчас:
Также доступно на:
Spotify:
Apple:
Рассылка:
23,9K
Топ
Рейтинг
Избранное