以3个步骤评估像ChatGPT这样的对话LLM应用(开源)。 与单轮任务不同,对话是在多条消息中展开的。 这意味着LLM的行为必须在多个回合中保持一致、合规,并且具有上下文意识,而不仅仅是在一次输出中准确。 在DeepEval中,您可以通过以下3个步骤做到这一点: 1)将您的多轮测试用例定义为ConversationalTestCase。 2)用简单英语定义一个度量标准,使用ConversationalGEval。 3)运行评估。 完成! 这将提供详细的分析,显示哪些对话通过,哪些失败,以及得分分布。 此外,您还可以获得一个完整的用户界面来检查单独的回合。 这有两个好处: - 整个流程非常简单,只需几行代码即可设置。 - DeepEval是100%开源的,拥有约1万颗星,您可以轻松自托管,以便您的数据保持在您希望的位置。 在评论中找到仓库!
如果你觉得这很有启发性,请与您的网络分享。 找到我 → @_avichawla 每天,我都会分享关于数据科学、机器学习、大型语言模型和检索增强生成的教程和见解。
Avi Chawla
Avi Chawla8月5日 14:35
以3个步骤评估像ChatGPT这样的对话LLM应用(开源)。 与单轮任务不同,对话是在多条消息中展开的。 这意味着LLM的行为必须在多个回合中保持一致、合规,并且具有上下文意识,而不仅仅是在一次输出中准确。 在DeepEval中,您可以通过以下3个步骤做到这一点: 1)将您的多轮测试用例定义为ConversationalTestCase。 2)用简单英语定义一个度量标准,使用ConversationalGEval。 3)运行评估。 完成! 这将提供详细的分析,显示哪些对话通过,哪些失败,以及得分分布。 此外,您还可以获得一个完整的用户界面来检查单独的回合。 这有两个好处: - 整个流程非常简单,只需几行代码即可设置。 - DeepEval是100%开源的,拥有约1万颗星,您可以轻松自托管,以便您的数据保持在您希望的位置。 在评论中找到仓库!
23.54K