"每个人都说AI评估很重要,所以我们就从头开始现场构建一个。" 这是我与@_amankhan(Arize)的新一集,我们现场为客户支持代理构建AI评估,包括: ✅ 创建评估标准 ✅ 标记黄金数据集 ✅ 将LLM评审与人类评分对齐 Aman的一些见解: 1. PM必须自己进行手动标记。"我从来没有觉得将人类评估外包给承包商有用。PM必须在电子表格中,以保持良好的判断。" 2. 在准确性和语气等标准上,提前定义什么是好/一般/差。这将成为你团队一致评估的标准。 3. 确保你的LLM评审与人类评分对齐,然后再进行扩展。首先在几十个案例上测试评审,目标是至少80%以上的匹配率。 📌 现在观看: 也可以在以下平台上找到: Spotify: Apple: 新闻通讯:
23.18K