热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
以3个步骤评估像ChatGPT这样的对话LLM应用(开源)。
与单轮任务不同,对话是在多条消息中展开的。
这意味着LLM的行为必须在多个回合中保持一致、合规,并且具有上下文意识,而不仅仅是在一次输出中准确。
在DeepEval中,您可以通过以下3个步骤做到这一点:
1)将您的多轮测试用例定义为ConversationalTestCase。
2)用简单英语定义一个度量标准,使用ConversationalGEval。
3)运行评估。
完成!
这将提供详细的分析,显示哪些对话通过,哪些失败,以及得分分布。
此外,您还可以获得一个完整的用户界面来检查单独的回合。
这有两个好处:
- 整个流程非常简单,只需几行代码即可设置。
- DeepEval是100%开源的,拥有约1万颗星,您可以轻松自托管,以便您的数据保持在您希望的位置。
在评论中找到仓库!
如果你觉得这很有启发性,请与您的网络分享。
找到我 → @_avichawla
每天,我都会分享关于数据科学、机器学习、大型语言模型和检索增强生成的教程和见解。

8月5日 14:35
以3个步骤评估像ChatGPT这样的对话LLM应用(开源)。
与单轮任务不同,对话是在多条消息中展开的。
这意味着LLM的行为必须在多个回合中保持一致、合规,并且具有上下文意识,而不仅仅是在一次输出中准确。
在DeepEval中,您可以通过以下3个步骤做到这一点:
1)将您的多轮测试用例定义为ConversationalTestCase。
2)用简单英语定义一个度量标准,使用ConversationalGEval。
3)运行评估。
完成!
这将提供详细的分析,显示哪些对话通过,哪些失败,以及得分分布。
此外,您还可以获得一个完整的用户界面来检查单独的回合。
这有两个好处:
- 整个流程非常简单,只需几行代码即可设置。
- DeepEval是100%开源的,拥有约1万颗星,您可以轻松自托管,以便您的数据保持在您希望的位置。
在评论中找到仓库!
23.54K
热门
排行
收藏