Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Оцените приложения LLM для общения, такие как ChatGPT, в 3 шага (с открытым исходным кодом).
В отличие от одноразовых задач, разговоры разворачиваются через несколько сообщений.
Это означает, что поведение LLM должно быть последовательным, соответствующим и осведомленным о контексте на протяжении всех этапов, а не только точным в одном выходном результате.
В DeepEval вы можете сделать это всего за 3 шага:
1) Определите ваш тестовый случай с несколькими этапами как ConversationalTestCase.
2) Определите метрику с помощью ConversationalGEval на простом английском.
3) Запустите оценку.
Готово!
Это предоставит подробный анализ того, какие разговоры прошли, а какие провалились, вместе с распределением оценок.
Более того, вы также получите полный интерфейс для проверки отдельных этапов.
Есть две хорошие вещи в этом:
- Весь процесс крайне прост в настройке и требует всего лишь несколько строк кода.
- DeepEval является 100% открытым исходным кодом с ~10k звездами, и вы можете легко разместить его на своем сервере, чтобы ваши данные оставались там, где вы хотите.
Найдите репозиторий в комментариях!
Если вам это показалось полезным, поделитесь этим с вашей сетью.
Найдите меня → @_avichawla
Каждый день я делюсь учебными материалами и инсайтами по DS, ML, LLM и RAG.

5 авг., 14:35
Оцените приложения LLM для общения, такие как ChatGPT, в 3 шага (с открытым исходным кодом).
В отличие от одноразовых задач, разговоры разворачиваются через несколько сообщений.
Это означает, что поведение LLM должно быть последовательным, соответствующим и осведомленным о контексте на протяжении всех этапов, а не только точным в одном выходном результате.
В DeepEval вы можете сделать это всего за 3 шага:
1) Определите ваш тестовый случай с несколькими этапами как ConversationalTestCase.
2) Определите метрику с помощью ConversationalGEval на простом английском.
3) Запустите оценку.
Готово!
Это предоставит подробный анализ того, какие разговоры прошли, а какие провалились, вместе с распределением оценок.
Более того, вы также получите полный интерфейс для проверки отдельных этапов.
Есть две хорошие вещи в этом:
- Весь процесс крайне прост в настройке и требует всего лишь несколько строк кода.
- DeepEval является 100% открытым исходным кодом с ~10k звездами, и вы можете легко разместить его на своем сервере, чтобы ваши данные оставались там, где вы хотите.
Найдите репозиторий в комментариях!
23,53K
Топ
Рейтинг
Избранное