Evalueer conversatie LLM-apps zoals ChatGPT in 3 stappen (open-source). In tegenstelling tot enkelvoudige taken, ontvouwen gesprekken zich over meerdere berichten. Dit betekent dat het gedrag van de LLM consistent, compliant en contextbewust moet zijn over de verschillende berichten, niet alleen nauwkeurig in een eenmalige output. In DeepEval kun je dat doen in slechts 3 stappen: 1) Definieer je multi-turn testgeval als een ConversationalTestCase. 2) Definieer een metriek met ConversationalGEval in gewone taal. 3) Voer de evaluatie uit. Klaar! Dit zal een gedetailleerde uitsplitsing geven van welke gesprekken geslaagd zijn en welke niet, samen met een scoreverdeling. Bovendien krijg je ook een volledige UI om individuele berichten te inspecteren. Er zijn twee goede dingen aan dit: - De hele pipeline is extreem eenvoudig op te zetten en vereist slechts een paar regels code. - DeepEval is 100% open-source met ~10k sterren, en je kunt het gemakkelijk zelf hosten zodat je gegevens blijven waar je wilt. Vind de repo in de opmerkingen!
Als je het inzichtelijk vond, deel het dan opnieuw met je netwerk. Vind me → @_avichawla Elke dag deel ik tutorials en inzichten over DS, ML, LLM en RAG's.
Avi Chawla
Avi Chawla5 aug, 14:35
Evalueer conversatie LLM-apps zoals ChatGPT in 3 stappen (open-source). In tegenstelling tot enkelvoudige taken, ontvouwen gesprekken zich over meerdere berichten. Dit betekent dat het gedrag van de LLM consistent, compliant en contextbewust moet zijn over de verschillende berichten, niet alleen nauwkeurig in een eenmalige output. In DeepEval kun je dat doen in slechts 3 stappen: 1) Definieer je multi-turn testgeval als een ConversationalTestCase. 2) Definieer een metriek met ConversationalGEval in gewone taal. 3) Voer de evaluatie uit. Klaar! Dit zal een gedetailleerde uitsplitsing geven van welke gesprekken geslaagd zijn en welke niet, samen met een scoreverdeling. Bovendien krijg je ook een volledige UI om individuele berichten te inspecteren. Er zijn twee goede dingen aan dit: - De hele pipeline is extreem eenvoudig op te zetten en vereist slechts een paar regels code. - DeepEval is 100% open-source met ~10k sterren, en je kunt het gemakkelijk zelf hosten zodat je gegevens blijven waar je wilt. Vind de repo in de opmerkingen!
23,54K