Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
"Alla säger att AI-utvärderingar är viktiga, så låt oss faktiskt bygga en live från grunden."
Här är mitt nya avsnitt med @_amankhan (Arize) där vi bygger AI-evals för en kundsupportagent live, inklusive:
✅ Skapa utvärderingskriterier
✅ Märka den gyllene datauppsättningen
✅ Anpassa LLM-domare till mänskliga poäng
Några insikter från Aman:
1. PM:er måste göra manuell märkning själva. "Jag har aldrig tyckt att det har varit meningsfullt att lägga ut personaltester på entreprenad. Premiärministern måste finnas med i kalkylbladet för att upprätthålla ett gott omdöme."
2. Definiera hur bra/genomsnittligt/dåligt ser ut utifrån kriterier som noggrannhet och ton i förväg. Detta blir din rubrik för konsekvent utvärdering i hela ditt team.
3. Se till att dina LLM-domare är i linje med dina mänskliga poäng innan du skalar. Testa domarna på några dussin fall först och sikta på minst 80%+ matchningsfrekvens.
📌 Titta nu:
Finns även på:
Spotify:
Äpple:
Nyhetsbrev:
24,04K
Topp
Rankning
Favoriter