Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
"Iedereen zegt dat AI-evaluaties belangrijk zijn, dus laten we er daadwerkelijk een live vanaf nul bouwen."
Hier is mijn nieuwe aflevering met @_amankhan (Arize) waarin we AI-evaluaties voor een klantenservicemedewerker live bouwen, inclusief:
✅ Het creëren van de evaluatiecriteria
✅ Het labelen van de gouden dataset
✅ Het afstemmen van LLM-rechters met menselijke scores
Enkele inzichten van Aman:
1. PM's moeten zelf handmatig labelen. "Ik heb het nooit nuttig gevonden om menselijke evaluaties uit te besteden aan aannemers. De PM moet in de spreadsheet zitten om goed oordeel te behouden."
2. Definieer van tevoren wat goed/gemiddeld/slecht eruitziet op criteria zoals nauwkeurigheid en toon. Dit wordt je rubric voor consistente evaluatie binnen je team.
3. Zorg ervoor dat je LLM-rechters overeenkomen met je menselijke scores voordat je opschaalt. Test de rechters eerst op een paar dozijn gevallen en streef naar een matchpercentage van minstens 80%.
📌 Kijk nu:
Ook beschikbaar op:
Spotify:
Apple:
Nieuwsbrief:
23,9K
Boven
Positie
Favorieten