Avalie aplicações de LLM conversacionais como o ChatGPT em 3 etapas (código aberto). Ao contrário de tarefas de turno único, as conversas se desenrolam ao longo de várias mensagens. Isso significa que o comportamento do LLM deve ser consistente, conforme e ciente do contexto ao longo dos turnos, não apenas preciso em uma saída única. No DeepEval, você pode fazer isso em apenas 3 etapas: 1) Defina seu caso de teste de múltiplos turnos como um ConversationalTestCase. 2) Defina uma métrica com ConversationalGEval em inglês simples. 3) Execute a avaliação. Pronto! Isso fornecerá uma análise detalhada de quais conversas passaram e quais falharam, juntamente com uma distribuição de pontuação. Além disso, você também obtém uma interface completa para inspecionar turnos individuais. Há duas coisas boas sobre isso: - Todo o pipeline é extremamente simples de configurar e requer apenas algumas linhas de código. - O DeepEval é 100% código aberto com ~10k estrelas, e você pode facilmente hospedá-lo você mesmo para que seus dados fiquem onde você deseja. Encontre o repositório nos comentários!
Se você achou interessante, compartilhe novamente com sua rede. Encontre-me → @_avichawla Todos os dias, compartilho tutoriais e insights sobre DS, ML, LLMs e RAGs.
Avi Chawla
Avi Chawla5/08, 14:35
Avalie aplicações de LLM conversacionais como o ChatGPT em 3 etapas (código aberto). Ao contrário de tarefas de turno único, as conversas se desenrolam ao longo de várias mensagens. Isso significa que o comportamento do LLM deve ser consistente, conforme e ciente do contexto ao longo dos turnos, não apenas preciso em uma saída única. No DeepEval, você pode fazer isso em apenas 3 etapas: 1) Defina seu caso de teste de múltiplos turnos como um ConversationalTestCase. 2) Defina uma métrica com ConversationalGEval em inglês simples. 3) Execute a avaliação. Pronto! Isso fornecerá uma análise detalhada de quais conversas passaram e quais falharam, juntamente com uma distribuição de pontuação. Além disso, você também obtém uma interface completa para inspecionar turnos individuais. Há duas coisas boas sobre isso: - Todo o pipeline é extremamente simples de configurar e requer apenas algumas linhas de código. - O DeepEval é 100% código aberto com ~10k estrelas, e você pode facilmente hospedá-lo você mesmo para que seus dados fiquem onde você deseja. Encontre o repositório nos comentários!
23,55K