Evaluasi aplikasi LLM percakapan seperti ChatGPT dalam 3 langkah (sumber terbuka). Tidak seperti tugas satu putaran, percakapan berlangsung melalui beberapa pesan. Ini berarti bahwa perilaku LLM harus konsisten, patuh, dan sadar konteks di seluruh belokan, bukan hanya akurat dalam output satu bidikan. Di DeepEval, Anda dapat melakukannya hanya dengan 3 langkah: 1) Tentukan kasus pengujian multi-giliran Anda sebagai ConversationalTestCase. 2) Tentukan metrik dengan ConversationalGEval dalam bahasa Inggris sederhana. 3) Jalankan evaluasi. Selesai! Ini akan memberikan perincian terperinci tentang percakapan mana yang lulus dan mana yang gagal, bersama dengan distribusi skor. Selain itu, Anda juga mendapatkan UI lengkap untuk memeriksa masing-masing belokan. Ada dua hal baik tentang ini: - Seluruh alur sangat mudah diatur dan hanya membutuhkan beberapa baris kode. - DeepEval adalah 100% open-source dengan ~10k bintang, dan Anda dapat dengan mudah menghostingnya sendiri sehingga data Anda tetap di tempat yang Anda inginkan. Temukan repositonya di komentar!
Jika Anda merasa berwawasan luas, bagikan kembali dengan jaringan Anda. Temukan saya → @_avichawla Setiap hari, saya berbagi tutorial dan wawasan tentang DS, ML, LLM, dan RAG.
Avi Chawla
Avi Chawla5 Agu, 14.35
Evaluasi aplikasi LLM percakapan seperti ChatGPT dalam 3 langkah (sumber terbuka). Tidak seperti tugas satu putaran, percakapan berlangsung melalui beberapa pesan. Ini berarti bahwa perilaku LLM harus konsisten, patuh, dan sadar konteks di seluruh belokan, bukan hanya akurat dalam output satu bidikan. Di DeepEval, Anda dapat melakukannya hanya dengan 3 langkah: 1) Tentukan kasus pengujian multi-giliran Anda sebagai ConversationalTestCase. 2) Tentukan metrik dengan ConversationalGEval dalam bahasa Inggris sederhana. 3) Jalankan evaluasi. Selesai! Ini akan memberikan perincian terperinci tentang percakapan mana yang lulus dan mana yang gagal, bersama dengan distribusi skor. Selain itu, Anda juga mendapatkan UI lengkap untuk memeriksa masing-masing belokan. Ada dua hal baik tentang ini: - Seluruh alur sangat mudah diatur dan hanya membutuhkan beberapa baris kode. - DeepEval adalah 100% open-source dengan ~10k bintang, dan Anda dapat dengan mudah menghostingnya sendiri sehingga data Anda tetap di tempat yang Anda inginkan. Temukan repositonya di komentar!
23,53K