"Alle sier at AI-evalueringer er viktige, så la oss faktisk bygge en live fra bunnen av." Her er min nye episode med @_amankhan (Arize) hvor vi bygger AI-evalueringer for en kundestøtteagent live, inkludert: ✅ Opprette evalueringskriteriene ✅ Merking av det gylne datasettet ✅ Tilpasse LLM-dommere til menneskelige poengsummer Noen innsikter fra Aman: 1. PM-er må gjøre manuell merking selv. «Jeg fant det aldri nyttig å outsource menneskelige vurderinger til entreprenører. Statsministeren må være i regnearket for å opprettholde god dømmekraft.» 2. Definer hvordan bra/gjennomsnittlig/dårlig ser ut på kriterier som nøyaktighet og tone på forhånd. Dette blir rubrikken din for konsekvent evaluering på tvers av teamet ditt. 3. Sørg for at LLM-dommerne dine stemmer overens med dine menneskelige poengsummer før du skalerer. Test dommerne på noen dusin saker først og sikt på minst 80%+ matchrate. 📌 Se nå: Også tilgjengelig på: Spotify: Eple: Nyhetsbrev:
21,9K