Oceń aplikacje LLM do rozmów, takie jak ChatGPT, w 3 krokach (open-source). W przeciwieństwie do zadań jednorazowych, rozmowy rozwijają się w wielu wiadomościach. Oznacza to, że zachowanie LLM musi być spójne, zgodne i świadome kontekstu w kolejnych turach, a nie tylko dokładne w jednorazowym wyniku. W DeepEval możesz to zrobić w zaledwie 3 krokach: 1) Zdefiniuj swój przypadek testowy wieloturnowy jako ConversationalTestCase. 2) Zdefiniuj metrykę za pomocą ConversationalGEval w prostym języku angielskim. 3) Uruchom ocenę. Gotowe! To zapewni szczegółowy przegląd, które rozmowy przeszły, a które nie, wraz z rozkładem punktów. Ponadto otrzymasz pełny interfejs użytkownika do przeglądania poszczególnych tur. Są dwie dobre rzeczy na ten temat: - Cały proces jest niezwykle prosty do skonfigurowania i wymaga tylko kilku linijek kodu. - DeepEval jest w 100% open-source z ~10k gwiazdkami, a Ty możesz łatwo go hostować samodzielnie, aby Twoje dane pozostały tam, gdzie chcesz. Znajdź repozytorium w komentarzach!
Jeśli uważasz go za wnikliwy, udostępnij go ponownie w swojej sieci. Znajdź mnie → @_avichawla Każdego dnia dzielę się samouczkami i spostrzeżeniami na temat DS, ML, LLM i RAGs.
Avi Chawla
Avi Chawla5 sie, 14:35
Oceń aplikacje LLM do rozmów, takie jak ChatGPT, w 3 krokach (open-source). W przeciwieństwie do zadań jednorazowych, rozmowy rozwijają się w wielu wiadomościach. Oznacza to, że zachowanie LLM musi być spójne, zgodne i świadome kontekstu w kolejnych turach, a nie tylko dokładne w jednorazowym wyniku. W DeepEval możesz to zrobić w zaledwie 3 krokach: 1) Zdefiniuj swój przypadek testowy wieloturnowy jako ConversationalTestCase. 2) Zdefiniuj metrykę za pomocą ConversationalGEval w prostym języku angielskim. 3) Uruchom ocenę. Gotowe! To zapewni szczegółowy przegląd, które rozmowy przeszły, a które nie, wraz z rozkładem punktów. Ponadto otrzymasz pełny interfejs użytkownika do przeglądania poszczególnych tur. Są dwie dobre rzeczy na ten temat: - Cały proces jest niezwykle prosty do skonfigurowania i wymaga tylko kilku linijek kodu. - DeepEval jest w 100% open-source z ~10k gwiazdkami, a Ty możesz łatwo go hostować samodzielnie, aby Twoje dane pozostały tam, gdzie chcesz. Znajdź repozytorium w komentarzach!
23,54K