熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
"每個人都說AI評估很重要,所以我們就從頭開始現場構建一個。"
這是我與@_amankhan(Arize)的新一集,我們現場為客戶支持代理構建AI評估,包括:
✅ 創建評估標準
✅ 標記黃金數據集
✅ 將LLM評審與人類評分對齊
Aman的一些見解:
1. PM必須自己進行手動標記。"我從來沒有覺得將人類評估外包給承包商有用。PM必須在電子表格中,以保持良好的判斷。"
2. 在準確性和語氣等標準上,提前定義什麼是好/一般/差。這將成為你團隊一致評估的標準。
3. 確保你的LLM評審與人類評分對齊,然後再進行擴展。首先在幾十個案例上測試評審,目標是至少80%以上的匹配率。
📌 現在觀看:
也可以在以下平台上找到:
Spotify:
Apple:
新聞通訊:
23.75K
熱門
排行
收藏