Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Avalie aplicações de LLM conversacionais como o ChatGPT em 3 etapas (código aberto).
Ao contrário de tarefas de turno único, as conversas se desenrolam ao longo de várias mensagens.
Isso significa que o comportamento do LLM deve ser consistente, conforme e ciente do contexto ao longo dos turnos, não apenas preciso em uma saída única.
No DeepEval, você pode fazer isso em apenas 3 etapas:
1) Defina seu caso de teste de múltiplos turnos como um ConversationalTestCase.
2) Defina uma métrica com ConversationalGEval em inglês simples.
3) Execute a avaliação.
Pronto!
Isso fornecerá uma análise detalhada de quais conversas passaram e quais falharam, juntamente com uma distribuição de pontuação.
Além disso, você também obtém uma interface completa para inspecionar turnos individuais.
Há duas coisas boas sobre isso:
- Todo o pipeline é extremamente simples de configurar e requer apenas algumas linhas de código.
- O DeepEval é 100% código aberto com ~10k estrelas, e você pode facilmente hospedá-lo você mesmo para que seus dados fiquem onde você deseja.
Encontre o repositório nos comentários!
Se você achou interessante, compartilhe novamente com sua rede.
Encontre-me → @_avichawla
Todos os dias, compartilho tutoriais e insights sobre DS, ML, LLMs e RAGs.

5/08, 14:35
Avalie aplicações de LLM conversacionais como o ChatGPT em 3 etapas (código aberto).
Ao contrário de tarefas de turno único, as conversas se desenrolam ao longo de várias mensagens.
Isso significa que o comportamento do LLM deve ser consistente, conforme e ciente do contexto ao longo dos turnos, não apenas preciso em uma saída única.
No DeepEval, você pode fazer isso em apenas 3 etapas:
1) Defina seu caso de teste de múltiplos turnos como um ConversationalTestCase.
2) Defina uma métrica com ConversationalGEval em inglês simples.
3) Execute a avaliação.
Pronto!
Isso fornecerá uma análise detalhada de quais conversas passaram e quais falharam, juntamente com uma distribuição de pontuação.
Além disso, você também obtém uma interface completa para inspecionar turnos individuais.
Há duas coisas boas sobre isso:
- Todo o pipeline é extremamente simples de configurar e requer apenas algumas linhas de código.
- O DeepEval é 100% código aberto com ~10k estrelas, e você pode facilmente hospedá-lo você mesmo para que seus dados fiquem onde você deseja.
Encontre o repositório nos comentários!
23,55K
Top
Classificação
Favoritos