Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
"Všichni říkají, že hodnocení umělé inteligence je důležité, tak si ho pojďme vytvořit naživo od nuly."
Zde je moje nová epizoda s @_amankhan (Arize), kde vytváříme AI evaluace pro agenta zákaznické podpory naživo, včetně:
✅ Vytvoření kritérií hodnocení
✅ Označení zlaté datové sady
✅ Sladění LLM soudců s lidským skóre
Několik postřehů z Amanu:
1. Projektoví manažeři si musí ruční značení provádět sami. "Nikdy jsem nepovažoval za užitečné zadávat lidské hodnocení dodavatelům. Premiér musí být v tabulce, aby si zachoval dobrý úsudek."
2. Předem definujte, jak vypadá dobré/průměrné/špatné na základě kritérií, jako je přesnost a tón. To se stane vaší rubrikou pro konzistentní hodnocení napříč vaším týmem.
3. Před škálováním se ujistěte, že vaši porotci LLM jsou v souladu s vaším lidským skóre. Nejprve otestujte soudce na několika desítkách případů a zaměřte se na míru shody alespoň 80%+.
📌 Podívejte se:
K dispozici také na:
Spotify:
Jablko:
Leták:
21,9K
Top
Hodnocení
Oblíbené