Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Valuta le app LLM conversazionali come ChatGPT in 3 passaggi (open-source).
A differenza dei compiti a turno singolo, le conversazioni si sviluppano su più messaggi.
Ciò significa che il comportamento dell'LLM deve essere coerente, conforme e consapevole del contesto attraverso i turni, non solo accurato in un output singolo.
In DeepEval, puoi farlo in soli 3 passaggi:
1) Definisci il tuo caso di test multi-turno come un ConversationalTestCase.
2) Definisci una metrica con ConversationalGEval in inglese semplice.
3) Esegui la valutazione.
Fatto!
Questo fornirà un'analisi dettagliata di quali conversazioni sono passate e quali hanno fallito, insieme a una distribuzione dei punteggi.
Inoltre, ottieni anche un'interfaccia utente completa per ispezionare i singoli turni.
Ci sono due buone cose riguardo a questo:
- L'intero processo è estremamente semplice da configurare e richiede solo poche righe di codice.
- DeepEval è 100% open-source con ~10k stelle, e puoi facilmente auto-ospitarlo in modo che i tuoi dati rimangano dove vuoi.
Trova il repo nei commenti!
Se l'hai trovato interessante, condividilo nuovamente con la tua rete.
Trovami → @_avichawla
Ogni giorno condivido tutorial e approfondimenti su DS, ML, LLM e RAG.

5 ago, 14:35
Valuta le app LLM conversazionali come ChatGPT in 3 passaggi (open-source).
A differenza dei compiti a turno singolo, le conversazioni si sviluppano su più messaggi.
Ciò significa che il comportamento dell'LLM deve essere coerente, conforme e consapevole del contesto attraverso i turni, non solo accurato in un output singolo.
In DeepEval, puoi farlo in soli 3 passaggi:
1) Definisci il tuo caso di test multi-turno come un ConversationalTestCase.
2) Definisci una metrica con ConversationalGEval in inglese semplice.
3) Esegui la valutazione.
Fatto!
Questo fornirà un'analisi dettagliata di quali conversazioni sono passate e quali hanno fallito, insieme a una distribuzione dei punteggi.
Inoltre, ottieni anche un'interfaccia utente completa per ispezionare i singoli turni.
Ci sono due buone cose riguardo a questo:
- L'intero processo è estremamente semplice da configurare e richiede solo poche righe di codice.
- DeepEval è 100% open-source con ~10k stelle, e puoi facilmente auto-ospitarlo in modo che i tuoi dati rimangano dove vuoi.
Trova il repo nei commenti!
23,51K
Principali
Ranking
Preferiti