「AI評価は大事だとみんな言っているので、実際にゼロからライブで作り上げよう」 これは、@_amankhan (Arize) との新しいエピソードで、カスタマー サポート エージェントの AI 評価をライブで構築します。 ✅ 評価基準の作成 ✅ ゴールデンデータセットのラベル付け ✅ LLM審査員と人間のスコアの整合性 アマンからの洞察: 1. PMは自分で手動でラベル付けを行う必要があります。「人間の評価を請負業者にアウトソーシングすることは、決して有用だとは思わなかった。首相は適切な判断を維持するためにスプレッドシートに記載されなければなりません。」 2. 正確さやトーンなどの基準で、良い/平均的/悪いものがどのようなものかを事前に定義します。これは、チーム全体で一貫した評価を行うためのルーブリックになります。 3. スケールを拡大する前に、LLM の審査員が人間のスコアと一致していることを確認してください。まず数十件のケースで審査員をテストし、少なくとも80%+の一致率を目指します。 📌 今すぐ見る: 以下でもご利用いただけます。 スポティファイ: 林檎: ニュースレター:
23.75K