"Todo mundo diz que as avaliações de IA são importantes, então vamos realmente construir uma ao vivo do zero." Aqui está meu novo episódio com @_amankhan (Arize), onde construímos avaliações de IA para um agente de suporte ao cliente ao vivo, incluindo: ✅ Criando os critérios de avaliação ✅ Rotulando o conjunto de dados dourado ✅ Alinhando juízes de LLM com pontuações humanas Alguns insights de Aman: 1. Os PMs devem fazer a rotulagem manual. "Nunca achei útil terceirizar avaliações humanas para empreiteiros. O PM tem que estar na planilha para manter o bom senso. 2. Defina o que é bom/médio/ruim em critérios como precisão e tom antecipadamente. Isso se torna sua rubrica para avaliação consistente em toda a sua equipe. 3. Certifique-se de que seus juízes de LLM estejam alinhados com suas pontuações humanas antes de escalar. Teste os juízes em algumas dezenas de casos primeiro e aponte para pelo menos 80% + taxa de correspondência. 📌 Assista agora: Também disponível em: Spotify: Maçã: Boletim informativo:
21,91K