Оцените приложения LLM для общения, такие как ChatGPT, в 3 шага (с открытым исходным кодом). В отличие от одноразовых задач, разговоры разворачиваются через несколько сообщений. Это означает, что поведение LLM должно быть последовательным, соответствующим и осведомленным о контексте на протяжении всех этапов, а не только точным в одном выходном результате. В DeepEval вы можете сделать это всего за 3 шага: 1) Определите ваш тестовый случай с несколькими этапами как ConversationalTestCase. 2) Определите метрику с помощью ConversationalGEval на простом английском. 3) Запустите оценку. Готово! Это предоставит подробный анализ того, какие разговоры прошли, а какие провалились, вместе с распределением оценок. Более того, вы также получите полный интерфейс для проверки отдельных этапов. Есть две хорошие вещи в этом: - Весь процесс крайне прост в настройке и требует всего лишь несколько строк кода. - DeepEval является 100% открытым исходным кодом с ~10k звездами, и вы можете легко разместить его на своем сервере, чтобы ваши данные оставались там, где вы хотите. Найдите репозиторий в комментариях!
Если вам это показалось полезным, поделитесь этим с вашей сетью. Найдите меня → @_avichawla Каждый день я делюсь учебными материалами и инсайтами по DS, ML, LLM и RAG.
Avi Chawla
Avi Chawla5 авг., 14:35
Оцените приложения LLM для общения, такие как ChatGPT, в 3 шага (с открытым исходным кодом). В отличие от одноразовых задач, разговоры разворачиваются через несколько сообщений. Это означает, что поведение LLM должно быть последовательным, соответствующим и осведомленным о контексте на протяжении всех этапов, а не только точным в одном выходном результате. В DeepEval вы можете сделать это всего за 3 шага: 1) Определите ваш тестовый случай с несколькими этапами как ConversationalTestCase. 2) Определите метрику с помощью ConversationalGEval на простом английском. 3) Запустите оценку. Готово! Это предоставит подробный анализ того, какие разговоры прошли, а какие провалились, вместе с распределением оценок. Более того, вы также получите полный интерфейс для проверки отдельных этапов. Есть две хорошие вещи в этом: - Весь процесс крайне прост в настройке и требует всего лишь несколько строк кода. - DeepEval является 100% открытым исходным кодом с ~10k звездами, и вы можете легко разместить его на своем сервере, чтобы ваши данные оставались там, где вы хотите. Найдите репозиторий в комментариях!
23,53K