热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
"每个人都说AI评估很重要,所以我们就从头开始现场构建一个。"
这是我与@_amankhan(Arize)的新一集,我们现场为客户支持代理构建AI评估,包括:
✅ 创建评估标准
✅ 标记黄金数据集
✅ 将LLM评审与人类评分对齐
Aman的一些见解:
1. PM必须自己进行手动标记。"我从来没有觉得将人类评估外包给承包商有用。PM必须在电子表格中,以保持良好的判断。"
2. 在准确性和语气等标准上,提前定义什么是好/一般/差。这将成为你团队一致评估的标准。
3. 确保你的LLM评审与人类评分对齐,然后再进行扩展。首先在几十个案例上测试评审,目标是至少80%以上的匹配率。
📌 现在观看:
也可以在以下平台上找到:
Spotify:
Apple:
新闻通讯:
23.18K
热门
排行
收藏