Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Evalueer conversatie LLM-apps zoals ChatGPT in 3 stappen (open-source).
In tegenstelling tot enkelvoudige taken, ontvouwen gesprekken zich over meerdere berichten.
Dit betekent dat het gedrag van de LLM consistent, compliant en contextbewust moet zijn over de verschillende berichten, niet alleen nauwkeurig in een eenmalige output.
In DeepEval kun je dat doen in slechts 3 stappen:
1) Definieer je multi-turn testgeval als een ConversationalTestCase.
2) Definieer een metriek met ConversationalGEval in gewone taal.
3) Voer de evaluatie uit.
Klaar!
Dit zal een gedetailleerde uitsplitsing geven van welke gesprekken geslaagd zijn en welke niet, samen met een scoreverdeling.
Bovendien krijg je ook een volledige UI om individuele berichten te inspecteren.
Er zijn twee goede dingen aan dit:
- De hele pipeline is extreem eenvoudig op te zetten en vereist slechts een paar regels code.
- DeepEval is 100% open-source met ~10k sterren, en je kunt het gemakkelijk zelf hosten zodat je gegevens blijven waar je wilt.
Vind de repo in de opmerkingen!
Als je het inzichtelijk vond, deel het dan opnieuw met je netwerk.
Vind me → @_avichawla
Elke dag deel ik tutorials en inzichten over DS, ML, LLM en RAG's.

5 aug, 14:35
Evalueer conversatie LLM-apps zoals ChatGPT in 3 stappen (open-source).
In tegenstelling tot enkelvoudige taken, ontvouwen gesprekken zich over meerdere berichten.
Dit betekent dat het gedrag van de LLM consistent, compliant en contextbewust moet zijn over de verschillende berichten, niet alleen nauwkeurig in een eenmalige output.
In DeepEval kun je dat doen in slechts 3 stappen:
1) Definieer je multi-turn testgeval als een ConversationalTestCase.
2) Definieer een metriek met ConversationalGEval in gewone taal.
3) Voer de evaluatie uit.
Klaar!
Dit zal een gedetailleerde uitsplitsing geven van welke gesprekken geslaagd zijn en welke niet, samen met een scoreverdeling.
Bovendien krijg je ook een volledige UI om individuele berichten te inspecteren.
Er zijn twee goede dingen aan dit:
- De hele pipeline is extreem eenvoudig op te zetten en vereist slechts een paar regels code.
- DeepEval is 100% open-source met ~10k sterren, en je kunt het gemakkelijk zelf hosten zodat je gegevens blijven waar je wilt.
Vind de repo in de opmerkingen!
23,54K
Boven
Positie
Favorieten