Utvärdera konversations-LLM-appar som ChatGPT i 3 steg (öppen källkod). Till skillnad från uppgifter med en tur utvecklas konversationer över flera meddelanden. Detta innebär att LLM:s beteende måste vara konsekvent, kompatibelt och kontextmedvetet över varv, inte bara korrekt i enskottsutdata. I DeepEval kan du göra det med bara 3 steg: 1) Definiera ditt testfall med flera svängar som ett ConversationalTestCase. 2) Definiera ett mått med ConversationalGEval på vanlig engelska. 3) Kör utvärderingen. Färdig! Detta ger en detaljerad uppdelning av vilka konversationer som har godkänts och vilka som misslyckats, tillsammans med en poängfördelning. Dessutom får du också ett fullständigt användargränssnitt för att inspektera enskilda svängar. Det finns två bra saker med detta: - Hela pipelinen är extremt enkel att sätta upp och kräver bara några rader kod. - DeepEval är 100 % öppen källkod med ~10k stjärnor, och du kan enkelt själv vara värd för den så att din data stannar där du vill. Hitta repo i kommentarerna!
Om du tyckte att det var insiktsfullt, dela det igen med ditt nätverk. Hitta mig → @_avichawla Varje dag delar jag med mig av handledningar och insikter om DS, ML, LLM och RAGs.
Avi Chawla
Avi Chawla5 aug. 14:35
Utvärdera konversations-LLM-appar som ChatGPT i 3 steg (öppen källkod). Till skillnad från uppgifter med en tur utvecklas konversationer över flera meddelanden. Detta innebär att LLM:s beteende måste vara konsekvent, kompatibelt och kontextmedvetet över varv, inte bara korrekt i enskottsutdata. I DeepEval kan du göra det med bara 3 steg: 1) Definiera ditt testfall med flera svängar som ett ConversationalTestCase. 2) Definiera ett mått med ConversationalGEval på vanlig engelska. 3) Kör utvärderingen. Färdig! Detta ger en detaljerad uppdelning av vilka konversationer som har godkänts och vilka som misslyckats, tillsammans med en poängfördelning. Dessutom får du också ett fullständigt användargränssnitt för att inspektera enskilda svängar. Det finns två bra saker med detta: - Hela pipelinen är extremt enkel att sätta upp och kräver bara några rader kod. - DeepEval är 100 % öppen källkod med ~10k stjärnor, och du kan enkelt själv vara värd för den så att din data stannar där du vill. Hitta repo i kommentarerna!
23,53K