Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Avalie aplicativos LLM de conversação como o ChatGPT em 3 etapas (código aberto).
Ao contrário das tarefas de turno único, as conversas se desenrolam em várias mensagens.
Isso significa que o comportamento do LLM deve ser consistente, compatível e sensível ao contexto em todos os turnos, não apenas preciso na saída única.
No DeepEval, você pode fazer isso com apenas 3 etapas:
1) Defina seu caso de teste de vários turnos como um ConversationalTestCase.
2) Defina uma métrica com ConversationalGEval em inglês simples.
3) Execute a avaliação.
Terminado!
Isso fornecerá uma análise detalhada de quais conversas foram aprovadas e quais falharam, juntamente com uma distribuição de pontuação.
Além disso, você também obtém uma interface de usuário completa para inspecionar turnos individuais.
Há duas coisas boas sobre isso:
- Todo o pipeline é extremamente simples de configurar e requer apenas algumas linhas de código.
- O DeepEval é 100% de código aberto com ~ 10 mil estrelas, e você pode facilmente hospedá-lo para que seus dados permaneçam onde você quiser.
Encontre o repositório nos comentários!
Se você achou perspicaz, compartilhe-o novamente com sua rede.
Encontre-me → @_avichawla
Todos os dias, compartilho tutoriais e insights sobre DS, ML, LLMs e RAGs.

5 de ago., 14:35
Avalie aplicativos LLM de conversação como o ChatGPT em 3 etapas (código aberto).
Ao contrário das tarefas de turno único, as conversas se desenrolam em várias mensagens.
Isso significa que o comportamento do LLM deve ser consistente, compatível e sensível ao contexto em todos os turnos, não apenas preciso na saída única.
No DeepEval, você pode fazer isso com apenas 3 etapas:
1) Defina seu caso de teste de vários turnos como um ConversationalTestCase.
2) Defina uma métrica com ConversationalGEval em inglês simples.
3) Execute a avaliação.
Terminado!
Isso fornecerá uma análise detalhada de quais conversas foram aprovadas e quais falharam, juntamente com uma distribuição de pontuação.
Além disso, você também obtém uma interface de usuário completa para inspecionar turnos individuais.
Há duas coisas boas sobre isso:
- Todo o pipeline é extremamente simples de configurar e requer apenas algumas linhas de código.
- O DeepEval é 100% de código aberto com ~ 10 mil estrelas, e você pode facilmente hospedá-lo para que seus dados permaneçam onde você quiser.
Encontre o repositório nos comentários!
23,54K
Melhores
Classificação
Favoritos