Valuta le app LLM conversazionali come ChatGPT in 3 passaggi (open-source). A differenza dei compiti a turno singolo, le conversazioni si sviluppano su più messaggi. Ciò significa che il comportamento dell'LLM deve essere coerente, conforme e consapevole del contesto attraverso i turni, non solo accurato in un output singolo. In DeepEval, puoi farlo in soli 3 passaggi: 1) Definisci il tuo caso di test multi-turno come un ConversationalTestCase. 2) Definisci una metrica con ConversationalGEval in inglese semplice. 3) Esegui la valutazione. Fatto! Questo fornirà un'analisi dettagliata di quali conversazioni sono passate e quali hanno fallito, insieme a una distribuzione dei punteggi. Inoltre, ottieni anche un'interfaccia utente completa per ispezionare i singoli turni. Ci sono due buone cose riguardo a questo: - L'intero processo è estremamente semplice da configurare e richiede solo poche righe di codice. - DeepEval è 100% open-source con ~10k stelle, e puoi facilmente auto-ospitarlo in modo che i tuoi dati rimangano dove vuoi. Trova il repo nei commenti!
Se l'hai trovato interessante, condividilo nuovamente con la tua rete. Trovami → @_avichawla Ogni giorno condivido tutorial e approfondimenti su DS, ML, LLM e RAG.
Avi Chawla
Avi Chawla5 ago, 14:35
Valuta le app LLM conversazionali come ChatGPT in 3 passaggi (open-source). A differenza dei compiti a turno singolo, le conversazioni si sviluppano su più messaggi. Ciò significa che il comportamento dell'LLM deve essere coerente, conforme e consapevole del contesto attraverso i turni, non solo accurato in un output singolo. In DeepEval, puoi farlo in soli 3 passaggi: 1) Definisci il tuo caso di test multi-turno come un ConversationalTestCase. 2) Definisci una metrica con ConversationalGEval in inglese semplice. 3) Esegui la valutazione. Fatto! Questo fornirà un'analisi dettagliata di quali conversazioni sono passate e quali hanno fallito, insieme a una distribuzione dei punteggi. Inoltre, ottieni anche un'interfaccia utente completa per ispezionare i singoli turni. Ci sono due buone cose riguardo a questo: - L'intero processo è estremamente semplice da configurare e richiede solo poche righe di codice. - DeepEval è 100% open-source con ~10k stelle, e puoi facilmente auto-ospitarlo in modo che i tuoi dati rimangano dove vuoi. Trova il repo nei commenti!
23,51K