Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Evalúa aplicaciones de LLM conversacionales como ChatGPT en 3 pasos (código abierto).
A diferencia de las tareas de un solo turno, las conversaciones se desarrollan a través de múltiples mensajes.
Esto significa que el comportamiento del LLM debe ser consistente, conforme y consciente del contexto a lo largo de los turnos, no solo preciso en una salida única.
En DeepEval, puedes hacer eso en solo 3 pasos:
1) Define tu caso de prueba de múltiples turnos como un ConversationalTestCase.
2) Define una métrica con ConversationalGEval en inglés sencillo.
3) Ejecuta la evaluación.
¡Listo!
Esto proporcionará un desglose detallado de qué conversaciones pasaron y cuáles fallaron, junto con una distribución de puntajes.
Además, también obtienes una interfaz de usuario completa para inspeccionar turnos individuales.
Hay dos cosas buenas sobre esto:
- Todo el proceso es extremadamente simple de configurar y requiere solo unas pocas líneas de código.
- DeepEval es 100% de código abierto con ~10k estrellas, y puedes autoalojarlo fácilmente para que tus datos permanezcan donde tú quieras.
¡Encuentra el repositorio en los comentarios!
Si te ha resultado interesante, vuelve a compartirlo con tu red.
Encuéntrame → @_avichawla
Todos los días, comparto tutoriales e ideas sobre DS, ML, LLM y RAG.

5 ago, 14:35
Evalúa aplicaciones de LLM conversacionales como ChatGPT en 3 pasos (código abierto).
A diferencia de las tareas de un solo turno, las conversaciones se desarrollan a través de múltiples mensajes.
Esto significa que el comportamiento del LLM debe ser consistente, conforme y consciente del contexto a lo largo de los turnos, no solo preciso en una salida única.
En DeepEval, puedes hacer eso en solo 3 pasos:
1) Define tu caso de prueba de múltiples turnos como un ConversationalTestCase.
2) Define una métrica con ConversationalGEval en inglés sencillo.
3) Ejecuta la evaluación.
¡Listo!
Esto proporcionará un desglose detallado de qué conversaciones pasaron y cuáles fallaron, junto con una distribución de puntajes.
Además, también obtienes una interfaz de usuario completa para inspeccionar turnos individuales.
Hay dos cosas buenas sobre esto:
- Todo el proceso es extremadamente simple de configurar y requiere solo unas pocas líneas de código.
- DeepEval es 100% de código abierto con ~10k estrellas, y puedes autoalojarlo fácilmente para que tus datos permanezcan donde tú quieras.
¡Encuentra el repositorio en los comentarios!
23.54K
Populares
Ranking
Favoritas