Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
"Tout le monde dit que les évaluations de l'IA sont importantes, alors construisons-en une en direct depuis le début."
Voici mon nouvel épisode avec @_amankhan (Arize) où nous construisons des évaluations d'IA pour un agent de support client en direct, y compris :
✅ Création des critères d'évaluation
✅ Étiquetage du jeu de données d'or
✅ Alignement des juges LLM avec les scores humains
Quelques idées d'Aman :
1. Les PM doivent faire le marquage manuel eux-mêmes. "Je n'ai jamais trouvé utile de sous-traiter les évaluations humaines à des sous-traitants. Le PM doit être dans le tableau pour maintenir un bon jugement."
2. Définissez à quoi ressemble un bon/moyen/mauvais résultat sur des critères comme la précision et le ton à l'avance. Cela devient votre grille pour une évaluation cohérente au sein de votre équipe.
3. Assurez-vous que vos juges LLM s'alignent avec vos scores humains avant de passer à l'échelle. Testez les juges sur quelques dizaines de cas d'abord et visez un taux de correspondance d'au moins 80 %.
📌 Regardez maintenant :
Également disponible sur :
Spotify :
Apple :
Newsletter :
21,9K
Meilleurs
Classement
Favoris