Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
"Todo el mundo dice que las evaluaciones de IA son importantes, así que construyamos una en vivo desde cero".
Aquí está mi nuevo episodio con @_amankhan (Arize) donde creamos evaluaciones de IA para un agente de atención al cliente en vivo, que incluyen:
✅ Creación de los criterios de evaluación
✅ Etiquetado del conjunto de datos dorado
✅ Alinear a los jueces de LLM con puntajes humanos
Algunas ideas de Aman:
1. Los PM deben hacer el etiquetado manual ellos mismos. "Nunca me pareció útil subcontratar evaluaciones humanas a contratistas. El primer ministro tiene que estar en la hoja de cálculo para mantener el buen juicio".
2. Defina cómo se ve bueno / promedio / malo en criterios como la precisión y el tono por adelantado. Esto se convierte en su rúbrica para una evaluación consistente en todo su equipo.
3. Asegúrese de que sus jueces de LLM se alineen con sus puntajes humanos antes de escalar. Pruebe primero a los jueces en unas pocas docenas de casos y apunte a una tasa de coincidencia de al menos 80% +.
📌 Ver ahora:
También disponible en:
Spotify:
Manzana:
Boletín:
19.85K
Populares
Ranking
Favoritas