"Todo el mundo dice que las evaluaciones de IA son importantes, así que vamos a construir una en vivo desde cero." Aquí está mi nuevo episodio con @_amankhan (Arize) donde construimos evaluaciones de IA para un agente de atención al cliente en vivo, incluyendo: ✅ Creación de los criterios de evaluación ✅ Etiquetado del conjunto de datos dorado ✅ Alineación de los jueces LLM con las puntuaciones humanas Algunas ideas de Aman: 1. Los PMs deben hacer el etiquetado manualmente. "Nunca encontré útil externalizar las evaluaciones humanas a contratistas. El PM tiene que estar en la hoja de cálculo para mantener un buen juicio." 2. Define cómo se ve lo bueno/promedio/malo en criterios como precisión y tono desde el principio. Esto se convierte en tu rúbrica para una evaluación consistente en tu equipo. 3. Asegúrate de que tus jueces LLM se alineen con tus puntuaciones humanas antes de escalar. Prueba a los jueces en unos pocos casos primero y apunta a al menos un 80% de tasa de coincidencia. 📌 Mira ahora: También disponible en: Spotify: Apple: Boletín:
24,03K