"Semua orang mengatakan evaluasi AI itu penting, jadi mari kita benar-benar membangunnya secara langsung dari awal." Berikut adalah episode baru saya dengan @_amankhan (Arize) di mana kami membangun eval AI untuk agen dukungan pelanggan secara langsung, termasuk: ✅ Membuat kriteria evaluasi ✅ Melabeli himpunan data emas ✅ Menyelaraskan juri LLM dengan skor manusia Beberapa wawasan dari Aman: 1. PM harus melakukan pelabelan manual sendiri. "Saya tidak pernah merasa berguna untuk mengalihdayakan eval manusia kepada kontraktor. PM harus berada di spreadsheet untuk menjaga penilaian yang baik." 2. Tentukan seperti apa yang baik/rata-rata/buruk pada kriteria seperti akurasi dan nada di muka. Ini menjadi rubrik Anda untuk evaluasi yang konsisten di seluruh tim Anda. 3. Pastikan juri LLM Anda selaras dengan skor manusia Anda sebelum Anda menskalakan. Uji juri pada beberapa lusin kasus terlebih dahulu dan targetkan setidaknya 80%+ tingkat kecocokan. 📌 Tonton sekarang: Juga tersedia di: Spotify: Apel: Newsletter:
21,9K