Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

"Todo el mundo dice que las evaluaciones de IA son importantes, así que construyamos una en vivo desde cero". Aquí está mi nuevo episodio con @_amankhan (Arize) donde creamos evaluaciones de IA para un agente de atención al cliente en vivo, que incluyen: ✅ Creación de los criterios de evaluación ✅ Etiquetado del conjunto de datos dorado ✅ Alinear a los jueces de LLM con puntajes humanos Algunas ideas de Aman: 1. Los PM deben hacer el etiquetado manual ellos mismos. "Nunca me pareció útil subcontratar evaluaciones humanas a contratistas. El primer ministro tiene que estar en la hoja de cálculo para mantener el buen juicio". 2. Defina cómo se ve bueno / promedio / malo en criterios como la precisión y el tono por adelantado. Esto se convierte en su rúbrica para una evaluación consistente en todo su equipo. 3. Asegúrese de que sus jueces de LLM se alineen con sus puntajes humanos antes de escalar. Pruebe primero a los jueces en unas pocas docenas de casos y apunte a una tasa de coincidencia de al menos 80% +. 📌 Ver ahora: También disponible en: Spotify: Manzana: Boletín:

19.85K

Populares

Ranking

Favoritas

Onchain en tendencia

Tendencia en X

Principales fondos recientes

Más destacadas