Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
"Toată lumea spune că evaluările AI sunt importante, așa că haideți să construim una live de la zero."
Iată noul meu episod cu @_amankhan (Arize) în care construim evaluări AI pentru un agent de asistență pentru clienți în direct, inclusiv:
✅ Crearea criteriilor de evaluare
✅ Etichetarea setului de date de aur
✅ Alinierea juriului LLM cu scorurile umane
Câteva informații de la Aman:
1. PM trebuie să facă ei înșiși etichetarea manuală. "Nu mi s-a părut niciodată util să externalizez evaluările umane către contractori. Prim-ministrul trebuie să fie în foaia de calcul pentru a menține o bună judecată."
2. Definiți cum arată bine/mediu/rău pe criterii precum acuratețea și tonul în avans. Aceasta devine rubrica ta pentru o evaluare consecventă în întreaga echipă.
3. Asigurați-vă că arbitrii LLM se aliniază cu scorurile umane înainte de a scala. Testați mai întâi judecătorii pe câteva zeci de cazuri și vizați o rată de potrivire de cel puțin 80%+.
📌 Urmărește acum:
Disponibil și pe:
Spotify:
Măr:
Buletin informativ:
23,9K
Limită superioară
Clasament
Favorite