"Všichni říkají, že hodnocení umělé inteligence je důležité, tak si ho pojďme vytvořit naživo od nuly." Zde je moje nová epizoda s @_amankhan (Arize), kde vytváříme AI evaluace pro agenta zákaznické podpory naživo, včetně: ✅ Vytvoření kritérií hodnocení ✅ Označení zlaté datové sady ✅ Sladění LLM soudců s lidským skóre Několik postřehů z Amanu: 1. Projektoví manažeři si musí ruční značení provádět sami. "Nikdy jsem nepovažoval za užitečné zadávat lidské hodnocení dodavatelům. Premiér musí být v tabulce, aby si zachoval dobrý úsudek." 2. Předem definujte, jak vypadá dobré/průměrné/špatné na základě kritérií, jako je přesnost a tón. To se stane vaší rubrikou pro konzistentní hodnocení napříč vaším týmem. 3. Před škálováním se ujistěte, že vaši porotci LLM jsou v souladu s vaším lidským skóre. Nejprve otestujte soudce na několika desítkách případů a zaměřte se na míru shody alespoň 80%+. 📌 Podívejte se: K dispozici také na: Spotify: Jablko: Leták:
21,9K