DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

"Iedereen zegt dat AI-evaluaties belangrijk zijn, dus laten we er daadwerkelijk een live vanaf nul bouwen." Hier is mijn nieuwe aflevering met @_amankhan (Arize) waarin we AI-evaluaties voor een klantenservicemedewerker live bouwen, inclusief: ✅ Het creëren van de evaluatiecriteria ✅ Het labelen van de gouden dataset ✅ Het afstemmen van LLM-rechters met menselijke scores Enkele inzichten van Aman: 1. PM's moeten zelf handmatig labelen. "Ik heb het nooit nuttig gevonden om menselijke evaluaties uit te besteden aan aannemers. De PM moet in de spreadsheet zitten om goed oordeel te behouden." 2. Definieer van tevoren wat goed/gemiddeld/slecht eruitziet op criteria zoals nauwkeurigheid en toon. Dit wordt je rubric voor consistente evaluatie binnen je team. 3. Zorg ervoor dat je LLM-rechters overeenkomen met je menselijke scores voordat je opschaalt. Test de rechters eerst op een paar dozijn gevallen en streef naar een matchpercentage van minstens 80%. 📌 Kijk nu: Ook beschikbaar op: Spotify: Apple: Nieuwsbrief:

23,9K

Boven

Positie

Favorieten

Populair op onchain

Populair op X

Recente topfinanciering

Belangrijkste