"Wszyscy mówią, że oceny AI są ważne, więc zbudujmy jedną na żywo od podstaw." Oto mój nowy odcinek z @_amankhan (Arize), w którym na żywo budujemy oceny AI dla agenta wsparcia klienta, w tym: ✅ Tworzenie kryteriów oceny ✅ Oznaczanie złotego zestawu danych ✅ Dopasowywanie sędziów LLM do ocen ludzkich Kilka spostrzeżeń od Amana: 1. PM-owie muszą sami przeprowadzać ręczne oznaczanie. "Nigdy nie uważałem, że outsourcing ocen ludzkich do wykonawców jest przydatny. PM musi być w arkuszu kalkulacyjnym, aby zachować dobrą ocenę." 2. Zdefiniuj, jak wygląda dobra/średnia/zła ocena w kryteriach takich jak dokładność i ton z góry. To stanie się twoją rubryką do spójnej oceny w zespole. 3. Upewnij się, że twoi sędziowie LLM są zgodni z twoimi ocenami ludzkimi, zanim zaczniesz skalować. Przetestuj sędziów na kilku tuzinach przypadków najpierw i dąż do co najmniej 80%+ wskaźnika zgodności. 📌 Obejrzyj teraz: Dostępne również na: Spotify: Apple: Newsletter:
21,9K