Оцініть розмовні програми LLM, такі як ChatGPT, у 3 кроки (з відкритим вихідним кодом). На відміну від одноходових завдань, розмови розгортаються в кілька повідомлень. Це означає, що поведінка LLM має бути послідовною, відповідною та контекстно-залежною для всіх ходів, а не лише точною при одноразовому виведенні. У DeepEval ви можете зробити це всього за 3 кроки: 1) Визначте свій багатооборотний тест-кейс як ConversationalTestCase. 2) Визначте метрику за допомогою ConversationalGEval простою англійською мовою. 3) Проведіть оцінювання. Зробити! Це надасть детальну розбивку того, які розмови пройшли, а які ні, а також розподіл балів. Крім того, ви також отримуєте повноцінний інтерфейс користувача для перевірки окремих поворотів. У цьому є дві хороші речі: - Весь пайплайн надзвичайно простий у налаштуванні та вимагає лише кількох рядків коду. - DeepEval на 100% відкритий з ~10 тисячами зірок, і ви можете легко розмістити його самостійно, щоб ваші дані залишалися там, де ви хочете. Знайдіть репозиторій у коментарях!
Якщо ви вважаєте її зрозумілою, повторно поділіться нею зі своєю мережею. Знайди мене → @_avichawla Щодня я ділюся навчальними матеріалами та ідеями про DS, ML, LLM та RAG.
Avi Chawla
Avi Chawla5 серп., 14:35
Оцініть розмовні програми LLM, такі як ChatGPT, у 3 кроки (з відкритим вихідним кодом). На відміну від одноходових завдань, розмови розгортаються в кілька повідомлень. Це означає, що поведінка LLM має бути послідовною, відповідною та контекстно-залежною для всіх ходів, а не лише точною при одноразовому виведенні. У DeepEval ви можете зробити це всього за 3 кроки: 1) Визначте свій багатооборотний тест-кейс як ConversationalTestCase. 2) Визначте метрику за допомогою ConversationalGEval простою англійською мовою. 3) Проведіть оцінювання. Зробити! Це надасть детальну розбивку того, які розмови пройшли, а які ні, а також розподіл балів. Крім того, ви також отримуєте повноцінний інтерфейс користувача для перевірки окремих поворотів. У цьому є дві хороші речі: - Весь пайплайн надзвичайно простий у налаштуванні та вимагає лише кількох рядків коду. - DeepEval на 100% відкритий з ~10 тисячами зірок, і ви можете легко розмістити його самостійно, щоб ваші дані залишалися там, де ви хочете. Знайдіть репозиторій у коментарях!
23,51K