以 3 個步驟評估像 ChatGPT 這樣的對話 LLM 應用程式(開源)。 與單回合任務不同,對話是通過多條消息展開的。 這意味著 LLM 的行為必須在多回合中保持一致、合規且具上下文意識,而不僅僅是在一次性輸出中準確。 在 DeepEval 中,您可以僅用 3 個步驟做到這一點: 1) 將您的多回合測試案例定義為 ConversationalTestCase。 2) 用簡單的英語定義一個指標,使用 ConversationalGEval。 3) 執行評估。 完成! 這將提供詳細的分析,顯示哪些對話通過,哪些失敗,以及分數分佈。 此外,您還可以獲得完整的用戶界面來檢查單獨的回合。 這裡有兩個好處: - 整個流程非常簡單設置,只需幾行代碼。 - DeepEval 是 100% 開源的,擁有約 10,000 顆星,您可以輕鬆自我託管,讓您的數據保持在您想要的地方。 在評論中找到倉庫!
如果您覺得它很有見地,請與您的網路重新分享。 找到我 → @_avichawla 每天,我都會分享有關 DS、ML、LLM 和 RAG 的教程和見解。
Avi Chawla
Avi Chawla8月5日 14:35
以 3 個步驟評估像 ChatGPT 這樣的對話 LLM 應用程式(開源)。 與單回合任務不同,對話是通過多條消息展開的。 這意味著 LLM 的行為必須在多回合中保持一致、合規且具上下文意識,而不僅僅是在一次性輸出中準確。 在 DeepEval 中,您可以僅用 3 個步驟做到這一點: 1) 將您的多回合測試案例定義為 ConversationalTestCase。 2) 用簡單的英語定義一個指標,使用 ConversationalGEval。 3) 執行評估。 完成! 這將提供詳細的分析,顯示哪些對話通過,哪些失敗,以及分數分佈。 此外,您還可以獲得完整的用戶界面來檢查單獨的回合。 這裡有兩個好處: - 整個流程非常簡單設置,只需幾行代碼。 - DeepEval 是 100% 開源的,擁有約 10,000 顆星,您可以輕鬆自我託管,讓您的數據保持在您想要的地方。 在評論中找到倉庫!
23.53K