"Tout le monde dit que les évaluations de l'IA sont importantes, alors construisons-en une en direct depuis le début." Voici mon nouvel épisode avec @_amankhan (Arize) où nous construisons des évaluations d'IA pour un agent de support client en direct, y compris : ✅ Création des critères d'évaluation ✅ Étiquetage du jeu de données d'or ✅ Alignement des juges LLM avec les scores humains Quelques idées d'Aman : 1. Les PM doivent faire le marquage manuel eux-mêmes. "Je n'ai jamais trouvé utile de sous-traiter les évaluations humaines à des sous-traitants. Le PM doit être dans le tableau pour maintenir un bon jugement." 2. Définissez à quoi ressemble un bon/moyen/mauvais résultat sur des critères comme la précision et le ton à l'avance. Cela devient votre grille pour une évaluation cohérente au sein de votre équipe. 3. Assurez-vous que vos juges LLM s'alignent avec vos scores humains avant de passer à l'échelle. Testez les juges sur quelques dizaines de cas d'abord et visez un taux de correspondance d'au moins 80 %. 📌 Regardez maintenant : Également disponible sur : Spotify : Apple : Newsletter :
21,9K