"Alla säger att AI-utvärderingar är viktiga, så låt oss faktiskt bygga en live från grunden." Här är mitt nya avsnitt med @_amankhan (Arize) där vi bygger AI-evals för en kundsupportagent live, inklusive: ✅ Skapa utvärderingskriterier ✅ Märka den gyllene datauppsättningen ✅ Anpassa LLM-domare till mänskliga poäng Några insikter från Aman: 1. PM:er måste göra manuell märkning själva. "Jag har aldrig tyckt att det har varit meningsfullt att lägga ut personaltester på entreprenad. Premiärministern måste finnas med i kalkylbladet för att upprätthålla ett gott omdöme." 2. Definiera hur bra/genomsnittligt/dåligt ser ut utifrån kriterier som noggrannhet och ton i förväg. Detta blir din rubrik för konsekvent utvärdering i hela ditt team. 3. Se till att dina LLM-domare är i linje med dina mänskliga poäng innan du skalar. Testa domarna på några dussin fall först och sikta på minst 80%+ matchningsfrekvens. 📌 Titta nu: Finns även på: Spotify: Äpple: Nyhetsbrev:
24,04K