Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Evaluer samtale-LLM-apper som ChatGPT i 3 trinn (åpen kildekode).
I motsetning til enkeltsvingsoppgaver, utspiller samtaler seg over flere meldinger.
Dette betyr at LLMs oppførsel må være konsistent, kompatibelt og kontekstbevisst på tvers av svinger, ikke bare nøyaktig i one-shot-utgang.
I DeepEval kan du gjøre det med bare 3 trinn:
1) Definer testcasen med flere svinger som en ConversationalTestCase.
2) Definer en beregning med ConversationalGEval på vanlig engelsk.
3) Kjør evalueringen.
Gjort!
Dette vil gi en detaljert oversikt over hvilke samtaler som ble bestått og hvilke som mislyktes, sammen med en poengfordeling.
Dessuten får du også et fullstendig brukergrensesnitt for å inspisere individuelle svinger.
Det er to gode ting med dette:
- Hele rørledningen er ekstremt enkel å sette opp og krever bare noen få linjer med kode.
- DeepEval er 100% åpen kildekode med ~10k stjerner, og du kan enkelt være vert for den selv slik at dataene dine forblir der du vil.
Finn repoen i kommentarfeltet!
Hvis du syntes det var innsiktsfullt, kan du dele det på nytt med nettverket ditt.
Finn meg → @_avichawla
Hver dag deler jeg opplæringsprogrammer og innsikt om DS, ML, LLM-er og RAG-er.

5. aug., 14:35
Evaluer samtale-LLM-apper som ChatGPT i 3 trinn (åpen kildekode).
I motsetning til enkeltsvingsoppgaver, utspiller samtaler seg over flere meldinger.
Dette betyr at LLMs oppførsel må være konsistent, kompatibelt og kontekstbevisst på tvers av svinger, ikke bare nøyaktig i one-shot-utgang.
I DeepEval kan du gjøre det med bare 3 trinn:
1) Definer testcasen med flere svinger som en ConversationalTestCase.
2) Definer en beregning med ConversationalGEval på vanlig engelsk.
3) Kjør evalueringen.
Gjort!
Dette vil gi en detaljert oversikt over hvilke samtaler som ble bestått og hvilke som mislyktes, sammen med en poengfordeling.
Dessuten får du også et fullstendig brukergrensesnitt for å inspisere individuelle svinger.
Det er to gode ting med dette:
- Hele rørledningen er ekstremt enkel å sette opp og krever bare noen få linjer med kode.
- DeepEval er 100% åpen kildekode med ~10k stjerner, og du kan enkelt være vert for den selv slik at dataene dine forblir der du vil.
Finn repoen i kommentarfeltet!
23,5K
Topp
Rangering
Favoritter