"Tutti dicono che le valutazioni AI sono importanti, quindi costruiamo effettivamente una valutazione dal vivo da zero." Ecco il mio nuovo episodio con @_amankhan (Arize) dove costruiamo valutazioni AI per un agente di supporto clienti dal vivo, inclusi: ✅ Creazione dei criteri di valutazione ✅ Etichettatura del dataset d'oro ✅ Allineamento dei giudici LLM con i punteggi umani Alcuni spunti da Aman: 1. I PM devono fare l'etichettatura manuale da soli. "Non ho mai trovato utile esternalizzare le valutazioni umane a contrattisti. Il PM deve essere nel foglio di calcolo per mantenere un buon giudizio." 2. Definisci in anticipo come appare un buon/medio/cattivo in base a criteri come accuratezza e tono. Questo diventa il tuo rubric per una valutazione coerente all'interno del tuo team. 3. Assicurati che i tuoi giudici LLM siano allineati con i tuoi punteggi umani prima di scalare. Testa i giudici su alcune dozzine di casi inizialmente e punta a un tasso di corrispondenza di almeno l'80%. 📌 Guarda ora: Disponibile anche su: Spotify: Apple: Newsletter:
23,75K