Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Оцініть розмовні програми LLM, такі як ChatGPT, у 3 кроки (з відкритим вихідним кодом).
На відміну від одноходових завдань, розмови розгортаються в кілька повідомлень.
Це означає, що поведінка LLM має бути послідовною, відповідною та контекстно-залежною для всіх ходів, а не лише точною при одноразовому виведенні.
У DeepEval ви можете зробити це всього за 3 кроки:
1) Визначте свій багатооборотний тест-кейс як ConversationalTestCase.
2) Визначте метрику за допомогою ConversationalGEval простою англійською мовою.
3) Проведіть оцінювання.
Зробити!
Це надасть детальну розбивку того, які розмови пройшли, а які ні, а також розподіл балів.
Крім того, ви також отримуєте повноцінний інтерфейс користувача для перевірки окремих поворотів.
У цьому є дві хороші речі:
- Весь пайплайн надзвичайно простий у налаштуванні та вимагає лише кількох рядків коду.
- DeepEval на 100% відкритий з ~10 тисячами зірок, і ви можете легко розмістити його самостійно, щоб ваші дані залишалися там, де ви хочете.
Знайдіть репозиторій у коментарях!
Якщо ви вважаєте її зрозумілою, повторно поділіться нею зі своєю мережею.
Знайди мене → @_avichawla
Щодня я ділюся навчальними матеріалами та ідеями про DS, ML, LLM та RAG.

5 серп., 14:35
Оцініть розмовні програми LLM, такі як ChatGPT, у 3 кроки (з відкритим вихідним кодом).
На відміну від одноходових завдань, розмови розгортаються в кілька повідомлень.
Це означає, що поведінка LLM має бути послідовною, відповідною та контекстно-залежною для всіх ходів, а не лише точною при одноразовому виведенні.
У DeepEval ви можете зробити це всього за 3 кроки:
1) Визначте свій багатооборотний тест-кейс як ConversationalTestCase.
2) Визначте метрику за допомогою ConversationalGEval простою англійською мовою.
3) Проведіть оцінювання.
Зробити!
Це надасть детальну розбивку того, які розмови пройшли, а які ні, а також розподіл балів.
Крім того, ви також отримуєте повноцінний інтерфейс користувача для перевірки окремих поворотів.
У цьому є дві хороші речі:
- Весь пайплайн надзвичайно простий у налаштуванні та вимагає лише кількох рядків коду.
- DeepEval на 100% відкритий з ~10 тисячами зірок, і ви можете легко розмістити його самостійно, щоб ваші дані залишалися там, де ви хочете.
Знайдіть репозиторій у коментарях!
23,51K
Найкращі
Рейтинг
Вибране