Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Evaluați aplicațiile LLM conversaționale precum ChatGPT în 3 pași (open-source).
Spre deosebire de sarcinile cu o singură tură, conversațiile se desfășoară pe mai multe mesaje.
Aceasta înseamnă că comportamentul LLM trebuie să fie consecvent, conform și conștient de context de-a lungul virajelor, nu doar precis în ieșirea dintr-o singură lovitură.
În DeepEval, puteți face acest lucru cu doar 3 pași:
1) Definiți cazul de testare cu mai multe ture ca un ConversationalTestCase.
2) Definiți o metrică cu ConversationalGEval în limba engleză simplă.
3) Rulați evaluarea.
Făcut!
Acest lucru va oferi o defalcare detaliată a conversațiilor care au trecut și care au eșuat, împreună cu o distribuție a scorului.
Mai mult, primești și o interfață de utilizare completă pentru a inspecta virajele individuale.
Există două lucruri bune despre asta:
- Întreaga conductă este extrem de simplu de configurat și necesită doar câteva linii de cod.
- DeepEval este 100% open-source cu ~10k stele și îl puteți găzdui cu ușurință, astfel încât datele să rămână acolo unde doriți.
Găsiți depozitul în comentarii!
Dacă ți s-a părut util, redistribui-l rețelei tale.
Găsește-mă → @_avichawla
În fiecare zi, împărtășesc tutoriale și informații despre DS, ML, LLM-uri și RAG.

5 aug., 14:35
Evaluați aplicațiile LLM conversaționale precum ChatGPT în 3 pași (open-source).
Spre deosebire de sarcinile cu o singură tură, conversațiile se desfășoară pe mai multe mesaje.
Aceasta înseamnă că comportamentul LLM trebuie să fie consecvent, conform și conștient de context de-a lungul virajelor, nu doar precis în ieșirea dintr-o singură lovitură.
În DeepEval, puteți face acest lucru cu doar 3 pași:
1) Definiți cazul de testare cu mai multe ture ca un ConversationalTestCase.
2) Definiți o metrică cu ConversationalGEval în limba engleză simplă.
3) Rulați evaluarea.
Făcut!
Acest lucru va oferi o defalcare detaliată a conversațiilor care au trecut și care au eșuat, împreună cu o distribuție a scorului.
Mai mult, primești și o interfață de utilizare completă pentru a inspecta virajele individuale.
Există două lucruri bune despre asta:
- Întreaga conductă este extrem de simplu de configurat și necesită doar câteva linii de cod.
- DeepEval este 100% open-source cu ~10k stele și îl puteți găzdui cu ușurință, astfel încât datele să rămână acolo unde doriți.
Găsiți depozitul în comentarii!
23,54K
Limită superioară
Clasament
Favorite