"Todos dizem que as avaliações de IA são importantes, então vamos realmente construir uma ao vivo do zero." Aqui está meu novo episódio com @_amankhan (Arize) onde construímos avaliações de IA para um agente de suporte ao cliente ao vivo, incluindo: ✅ Criar os critérios de avaliação ✅ Rotular o conjunto de dados de referência ✅ Alinhar os juízes LLM com as pontuações humanas Algumas percepções de Aman: 1. Os PMs devem fazer a rotulagem manualmente. "Nunca achei útil terceirizar avaliações humanas para contratados. O PM tem que estar na planilha para manter um bom julgamento." 2. Defina como é bom/médio/ruim em critérios como precisão e tom desde o início. Isso se torna seu critério para uma avaliação consistente em sua equipe. 3. Certifique-se de que seus juízes LLM estejam alinhados com suas pontuações humanas antes de escalar. Teste os juízes em algumas dezenas de casos primeiro e busque uma taxa de correspondência de pelo menos 80%. 📌 Assista agora: Também disponível em: Spotify: Apple: Newsletter:
21,9K