"Toată lumea spune că evaluările AI sunt importante, așa că haideți să construim una live de la zero." Iată noul meu episod cu @_amankhan (Arize) în care construim evaluări AI pentru un agent de asistență pentru clienți în direct, inclusiv: ✅ Crearea criteriilor de evaluare ✅ Etichetarea setului de date de aur ✅ Alinierea juriului LLM cu scorurile umane Câteva informații de la Aman: 1. PM trebuie să facă ei înșiși etichetarea manuală. "Nu mi s-a părut niciodată util să externalizez evaluările umane către contractori. Prim-ministrul trebuie să fie în foaia de calcul pentru a menține o bună judecată." 2. Definiți cum arată bine/mediu/rău pe criterii precum acuratețea și tonul în avans. Aceasta devine rubrica ta pentru o evaluare consecventă în întreaga echipă. 3. Asigurați-vă că arbitrii LLM se aliniază cu scorurile umane înainte de a scala. Testați mai întâi judecătorii pe câteva zeci de cazuri și vizați o rată de potrivire de cel puțin 80%+. 📌 Urmărește acum: Disponibil și pe: Spotify: Măr: Buletin informativ:
23,9K