Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Evaluasi aplikasi LLM percakapan seperti ChatGPT dalam 3 langkah (sumber terbuka).
Tidak seperti tugas satu putaran, percakapan berlangsung melalui beberapa pesan.
Ini berarti bahwa perilaku LLM harus konsisten, patuh, dan sadar konteks di seluruh belokan, bukan hanya akurat dalam output satu bidikan.
Di DeepEval, Anda dapat melakukannya hanya dengan 3 langkah:
1) Tentukan kasus pengujian multi-giliran Anda sebagai ConversationalTestCase.
2) Tentukan metrik dengan ConversationalGEval dalam bahasa Inggris sederhana.
3) Jalankan evaluasi.
Selesai!
Ini akan memberikan perincian terperinci tentang percakapan mana yang lulus dan mana yang gagal, bersama dengan distribusi skor.
Selain itu, Anda juga mendapatkan UI lengkap untuk memeriksa masing-masing belokan.
Ada dua hal baik tentang ini:
- Seluruh alur sangat mudah diatur dan hanya membutuhkan beberapa baris kode.
- DeepEval adalah 100% open-source dengan ~10k bintang, dan Anda dapat dengan mudah menghostingnya sendiri sehingga data Anda tetap di tempat yang Anda inginkan.
Temukan repositonya di komentar!
Jika Anda merasa berwawasan luas, bagikan kembali dengan jaringan Anda.
Temukan saya → @_avichawla
Setiap hari, saya berbagi tutorial dan wawasan tentang DS, ML, LLM, dan RAG.

5 Agu, 14.35
Evaluasi aplikasi LLM percakapan seperti ChatGPT dalam 3 langkah (sumber terbuka).
Tidak seperti tugas satu putaran, percakapan berlangsung melalui beberapa pesan.
Ini berarti bahwa perilaku LLM harus konsisten, patuh, dan sadar konteks di seluruh belokan, bukan hanya akurat dalam output satu bidikan.
Di DeepEval, Anda dapat melakukannya hanya dengan 3 langkah:
1) Tentukan kasus pengujian multi-giliran Anda sebagai ConversationalTestCase.
2) Tentukan metrik dengan ConversationalGEval dalam bahasa Inggris sederhana.
3) Jalankan evaluasi.
Selesai!
Ini akan memberikan perincian terperinci tentang percakapan mana yang lulus dan mana yang gagal, bersama dengan distribusi skor.
Selain itu, Anda juga mendapatkan UI lengkap untuk memeriksa masing-masing belokan.
Ada dua hal baik tentang ini:
- Seluruh alur sangat mudah diatur dan hanya membutuhkan beberapa baris kode.
- DeepEval adalah 100% open-source dengan ~10k bintang, dan Anda dapat dengan mudah menghostingnya sendiri sehingga data Anda tetap di tempat yang Anda inginkan.
Temukan repositonya di komentar!
23,53K
Teratas
Peringkat
Favorit