"每個人都說AI評估很重要,所以我們就從頭開始現場構建一個。" 這是我與@_amankhan(Arize)的新一集,我們現場為客戶支持代理構建AI評估,包括: ✅ 創建評估標準 ✅ 標記黃金數據集 ✅ 將LLM評審與人類評分對齊 Aman的一些見解: 1. PM必須自己進行手動標記。"我從來沒有覺得將人類評估外包給承包商有用。PM必須在電子表格中,以保持良好的判斷。" 2. 在準確性和語氣等標準上,提前定義什麼是好/一般/差。這將成為你團隊一致評估的標準。 3. 確保你的LLM評審與人類評分對齊,然後再進行擴展。首先在幾十個案例上測試評審,目標是至少80%以上的匹配率。 📌 現在觀看: 也可以在以下平台上找到: Spotify: Apple: 新聞通訊:
23.75K