Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
"Alle sier at AI-evalueringer er viktige, så la oss faktisk bygge en live fra bunnen av."
Her er min nye episode med @_amankhan (Arize) hvor vi bygger AI-evalueringer for en kundestøtteagent live, inkludert:
✅ Opprette evalueringskriteriene
✅ Merking av det gylne datasettet
✅ Tilpasse LLM-dommere til menneskelige poengsummer
Noen innsikter fra Aman:
1. PM-er må gjøre manuell merking selv. «Jeg fant det aldri nyttig å outsource menneskelige vurderinger til entreprenører. Statsministeren må være i regnearket for å opprettholde god dømmekraft.»
2. Definer hvordan bra/gjennomsnittlig/dårlig ser ut på kriterier som nøyaktighet og tone på forhånd. Dette blir rubrikken din for konsekvent evaluering på tvers av teamet ditt.
3. Sørg for at LLM-dommerne dine stemmer overens med dine menneskelige poengsummer før du skalerer. Test dommerne på noen dusin saker først og sikt på minst 80%+ matchrate.
📌 Se nå:
Også tilgjengelig på:
Spotify:
Eple:
Nyhetsbrev:
21,9K
Topp
Rangering
Favoritter