トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
「AI評価は大事だとみんな言っているので、実際にゼロからライブで作り上げよう」
これは、@_amankhan (Arize) との新しいエピソードで、カスタマー サポート エージェントの AI 評価をライブで構築します。
✅ 評価基準の作成
✅ ゴールデンデータセットのラベル付け
✅ LLM審査員と人間のスコアの整合性
アマンからの洞察:
1. PMは自分で手動でラベル付けを行う必要があります。「人間の評価を請負業者にアウトソーシングすることは、決して有用だとは思わなかった。首相は適切な判断を維持するためにスプレッドシートに記載されなければなりません。」
2. 正確さやトーンなどの基準で、良い/平均的/悪いものがどのようなものかを事前に定義します。これは、チーム全体で一貫した評価を行うためのルーブリックになります。
3. スケールを拡大する前に、LLM の審査員が人間のスコアと一致していることを確認してください。まず数十件のケースで審査員をテストし、少なくとも80%+の一致率を目指します。
📌 今すぐ見る:
以下でもご利用いただけます。
スポティファイ:
林檎:
ニュースレター:
23.75K
トップ
ランキング
お気に入り