Evalúa aplicaciones de LLM conversacionales como ChatGPT en 3 pasos (código abierto). A diferencia de las tareas de un solo turno, las conversaciones se desarrollan a través de múltiples mensajes. Esto significa que el comportamiento del LLM debe ser consistente, conforme y consciente del contexto a lo largo de los turnos, no solo preciso en una salida única. En DeepEval, puedes hacer eso en solo 3 pasos: 1) Define tu caso de prueba de múltiples turnos como un ConversationalTestCase. 2) Define una métrica con ConversationalGEval en inglés sencillo. 3) Ejecuta la evaluación. ¡Listo! Esto proporcionará un desglose detallado de qué conversaciones pasaron y cuáles fallaron, junto con una distribución de puntajes. Además, también obtienes una interfaz de usuario completa para inspeccionar turnos individuales. Hay dos cosas buenas sobre esto: - Todo el proceso es extremadamente simple de configurar y requiere solo unas pocas líneas de código. - DeepEval es 100% de código abierto con ~10k estrellas, y puedes autoalojarlo fácilmente para que tus datos permanezcan donde tú quieras. ¡Encuentra el repositorio en los comentarios!
Si te ha resultado interesante, vuelve a compartirlo con tu red. Encuéntrame → @_avichawla Todos los días, comparto tutoriales e ideas sobre DS, ML, LLM y RAG.
Avi Chawla
Avi Chawla5 ago, 14:35
Evalúa aplicaciones de LLM conversacionales como ChatGPT en 3 pasos (código abierto). A diferencia de las tareas de un solo turno, las conversaciones se desarrollan a través de múltiples mensajes. Esto significa que el comportamiento del LLM debe ser consistente, conforme y consciente del contexto a lo largo de los turnos, no solo preciso en una salida única. En DeepEval, puedes hacer eso en solo 3 pasos: 1) Define tu caso de prueba de múltiples turnos como un ConversationalTestCase. 2) Define una métrica con ConversationalGEval en inglés sencillo. 3) Ejecuta la evaluación. ¡Listo! Esto proporcionará un desglose detallado de qué conversaciones pasaron y cuáles fallaron, junto con una distribución de puntajes. Además, también obtienes una interfaz de usuario completa para inspeccionar turnos individuales. Hay dos cosas buenas sobre esto: - Todo el proceso es extremadamente simple de configurar y requiere solo unas pocas líneas de código. - DeepEval es 100% de código abierto con ~10k estrellas, y puedes autoalojarlo fácilmente para que tus datos permanezcan donde tú quieras. ¡Encuentra el repositorio en los comentarios!
23.54K