熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
以 3 個步驟評估像 ChatGPT 這樣的對話 LLM 應用程式(開源)。
與單回合任務不同,對話是通過多條消息展開的。
這意味著 LLM 的行為必須在多回合中保持一致、合規且具上下文意識,而不僅僅是在一次性輸出中準確。
在 DeepEval 中,您可以僅用 3 個步驟做到這一點:
1) 將您的多回合測試案例定義為 ConversationalTestCase。
2) 用簡單的英語定義一個指標,使用 ConversationalGEval。
3) 執行評估。
完成!
這將提供詳細的分析,顯示哪些對話通過,哪些失敗,以及分數分佈。
此外,您還可以獲得完整的用戶界面來檢查單獨的回合。
這裡有兩個好處:
- 整個流程非常簡單設置,只需幾行代碼。
- DeepEval 是 100% 開源的,擁有約 10,000 顆星,您可以輕鬆自我託管,讓您的數據保持在您想要的地方。
在評論中找到倉庫!
如果您覺得它很有見地,請與您的網路重新分享。
找到我 → @_avichawla
每天,我都會分享有關 DS、ML、LLM 和 RAG 的教程和見解。

8月5日 14:35
以 3 個步驟評估像 ChatGPT 這樣的對話 LLM 應用程式(開源)。
與單回合任務不同,對話是通過多條消息展開的。
這意味著 LLM 的行為必須在多回合中保持一致、合規且具上下文意識,而不僅僅是在一次性輸出中準確。
在 DeepEval 中,您可以僅用 3 個步驟做到這一點:
1) 將您的多回合測試案例定義為 ConversationalTestCase。
2) 用簡單的英語定義一個指標,使用 ConversationalGEval。
3) 執行評估。
完成!
這將提供詳細的分析,顯示哪些對話通過,哪些失敗,以及分數分佈。
此外,您還可以獲得完整的用戶界面來檢查單獨的回合。
這裡有兩個好處:
- 整個流程非常簡單設置,只需幾行代碼。
- DeepEval 是 100% 開源的,擁有約 10,000 顆星,您可以輕鬆自我託管,讓您的數據保持在您想要的地方。
在評論中找到倉庫!
23.53K
熱門
排行
收藏