一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

以3个步骤评估像ChatGPT这样的对话LLM应用（开源）。与单轮任务不同，对话是在多条消息中展开的。这意味着LLM的行为必须在多个回合中保持一致、合规，并且具有上下文意识，而不仅仅是在一次输出中准确。在DeepEval中，您可以通过以下3个步骤做到这一点： 1）将您的多轮测试用例定义为ConversationalTestCase。 2）用简单英语定义一个度量标准，使用ConversationalGEval。 3）运行评估。完成！这将提供详细的分析，显示哪些对话通过，哪些失败，以及得分分布。此外，您还可以获得一个完整的用户界面来检查单独的回合。这有两个好处： - 整个流程非常简单，只需几行代码即可设置。 - DeepEval是100%开源的，拥有约1万颗星，您可以轻松自托管，以便您的数据保持在您希望的位置。在评论中找到仓库！

如果你觉得这很有启发性，请与您的网络分享。找到我 → @_avichawla 每天，我都会分享关于数据科学、机器学习、大型语言模型和检索增强生成的教程和见解。

23.54K