Evaluați aplicațiile LLM conversaționale precum ChatGPT în 3 pași (open-source). Spre deosebire de sarcinile cu o singură tură, conversațiile se desfășoară pe mai multe mesaje. Aceasta înseamnă că comportamentul LLM trebuie să fie consecvent, conform și conștient de context de-a lungul virajelor, nu doar precis în ieșirea dintr-o singură lovitură. În DeepEval, puteți face acest lucru cu doar 3 pași: 1) Definiți cazul de testare cu mai multe ture ca un ConversationalTestCase. 2) Definiți o metrică cu ConversationalGEval în limba engleză simplă. 3) Rulați evaluarea. Făcut! Acest lucru va oferi o defalcare detaliată a conversațiilor care au trecut și care au eșuat, împreună cu o distribuție a scorului. Mai mult, primești și o interfață de utilizare completă pentru a inspecta virajele individuale. Există două lucruri bune despre asta: - Întreaga conductă este extrem de simplu de configurat și necesită doar câteva linii de cod. - DeepEval este 100% open-source cu ~10k stele și îl puteți găzdui cu ușurință, astfel încât datele să rămână acolo unde doriți. Găsiți depozitul în comentarii!
Dacă ți s-a părut util, redistribui-l rețelei tale. Găsește-mă → @_avichawla În fiecare zi, împărtășesc tutoriale și informații despre DS, ML, LLM-uri și RAG.
Avi Chawla
Avi Chawla5 aug., 14:35
Evaluați aplicațiile LLM conversaționale precum ChatGPT în 3 pași (open-source). Spre deosebire de sarcinile cu o singură tură, conversațiile se desfășoară pe mai multe mesaje. Aceasta înseamnă că comportamentul LLM trebuie să fie consecvent, conform și conștient de context de-a lungul virajelor, nu doar precis în ieșirea dintr-o singură lovitură. În DeepEval, puteți face acest lucru cu doar 3 pași: 1) Definiți cazul de testare cu mai multe ture ca un ConversationalTestCase. 2) Definiți o metrică cu ConversationalGEval în limba engleză simplă. 3) Rulați evaluarea. Făcut! Acest lucru va oferi o defalcare detaliată a conversațiilor care au trecut și care au eșuat, împreună cu o distribuție a scorului. Mai mult, primești și o interfață de utilizare completă pentru a inspecta virajele individuale. Există două lucruri bune despre asta: - Întreaga conductă este extrem de simplu de configurat și necesită doar câteva linii de cod. - DeepEval este 100% open-source cu ~10k stele și îl puteți găzdui cu ușurință, astfel încât datele să rămână acolo unde doriți. Găsiți depozitul în comentarii!
23,54K