Evaluer samtale-LLM-apper som ChatGPT i 3 trinn (åpen kildekode). I motsetning til enkeltsvingsoppgaver, utspiller samtaler seg over flere meldinger. Dette betyr at LLMs oppførsel må være konsistent, kompatibelt og kontekstbevisst på tvers av svinger, ikke bare nøyaktig i one-shot-utgang. I DeepEval kan du gjøre det med bare 3 trinn: 1) Definer testcasen med flere svinger som en ConversationalTestCase. 2) Definer en beregning med ConversationalGEval på vanlig engelsk. 3) Kjør evalueringen. Gjort! Dette vil gi en detaljert oversikt over hvilke samtaler som ble bestått og hvilke som mislyktes, sammen med en poengfordeling. Dessuten får du også et fullstendig brukergrensesnitt for å inspisere individuelle svinger. Det er to gode ting med dette: - Hele rørledningen er ekstremt enkel å sette opp og krever bare noen få linjer med kode. - DeepEval er 100% åpen kildekode med ~10k stjerner, og du kan enkelt være vert for den selv slik at dataene dine forblir der du vil. Finn repoen i kommentarfeltet!
Hvis du syntes det var innsiktsfullt, kan du dele det på nytt med nettverket ditt. Finn meg → @_avichawla Hver dag deler jeg opplæringsprogrammer og innsikt om DS, ML, LLM-er og RAG-er.
Avi Chawla
Avi Chawla5. aug., 14:35
Evaluer samtale-LLM-apper som ChatGPT i 3 trinn (åpen kildekode). I motsetning til enkeltsvingsoppgaver, utspiller samtaler seg over flere meldinger. Dette betyr at LLMs oppførsel må være konsistent, kompatibelt og kontekstbevisst på tvers av svinger, ikke bare nøyaktig i one-shot-utgang. I DeepEval kan du gjøre det med bare 3 trinn: 1) Definer testcasen med flere svinger som en ConversationalTestCase. 2) Definer en beregning med ConversationalGEval på vanlig engelsk. 3) Kjør evalueringen. Gjort! Dette vil gi en detaljert oversikt over hvilke samtaler som ble bestått og hvilke som mislyktes, sammen med en poengfordeling. Dessuten får du også et fullstendig brukergrensesnitt for å inspisere individuelle svinger. Det er to gode ting med dette: - Hele rørledningen er ekstremt enkel å sette opp og krever bare noen få linjer med kode. - DeepEval er 100% åpen kildekode med ~10k stjerner, og du kan enkelt være vert for den selv slik at dataene dine forblir der du vil. Finn repoen i kommentarfeltet!
23,5K