Avalie aplicativos LLM de conversação como o ChatGPT em 3 etapas (código aberto). Ao contrário das tarefas de turno único, as conversas se desenrolam em várias mensagens. Isso significa que o comportamento do LLM deve ser consistente, compatível e sensível ao contexto em todos os turnos, não apenas preciso na saída única. No DeepEval, você pode fazer isso com apenas 3 etapas: 1) Defina seu caso de teste de vários turnos como um ConversationalTestCase. 2) Defina uma métrica com ConversationalGEval em inglês simples. 3) Execute a avaliação. Terminado! Isso fornecerá uma análise detalhada de quais conversas foram aprovadas e quais falharam, juntamente com uma distribuição de pontuação. Além disso, você também obtém uma interface de usuário completa para inspecionar turnos individuais. Há duas coisas boas sobre isso: - Todo o pipeline é extremamente simples de configurar e requer apenas algumas linhas de código. - O DeepEval é 100% de código aberto com ~ 10 mil estrelas, e você pode facilmente hospedá-lo para que seus dados permaneçam onde você quiser. Encontre o repositório nos comentários!
Se você achou perspicaz, compartilhe-o novamente com sua rede. Encontre-me → @_avichawla Todos os dias, compartilho tutoriais e insights sobre DS, ML, LLMs e RAGs.
Avi Chawla
Avi Chawla5 de ago., 14:35
Avalie aplicativos LLM de conversação como o ChatGPT em 3 etapas (código aberto). Ao contrário das tarefas de turno único, as conversas se desenrolam em várias mensagens. Isso significa que o comportamento do LLM deve ser consistente, compatível e sensível ao contexto em todos os turnos, não apenas preciso na saída única. No DeepEval, você pode fazer isso com apenas 3 etapas: 1) Defina seu caso de teste de vários turnos como um ConversationalTestCase. 2) Defina uma métrica com ConversationalGEval em inglês simples. 3) Execute a avaliação. Terminado! Isso fornecerá uma análise detalhada de quais conversas foram aprovadas e quais falharam, juntamente com uma distribuição de pontuação. Além disso, você também obtém uma interface de usuário completa para inspecionar turnos individuais. Há duas coisas boas sobre isso: - Todo o pipeline é extremamente simples de configurar e requer apenas algumas linhas de código. - O DeepEval é 100% de código aberto com ~ 10 mil estrelas, e você pode facilmente hospedá-lo para que seus dados permaneçam onde você quiser. Encontre o repositório nos comentários!
23,54K