Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Comparemos OpenAI gpt-oss y Qwen-3 sobre matemáticas y razonamiento:
Before we dive in, here's a quick demo of what we're building!
Tech stack:
- @LiteLLM for orchestration
- @Cometml's Opik to build the eval pipeline (open-source)
- @OpenRouterAI to access the models
You'll also learn about G-Eval & building custom eval metrics.
Let's go! 🚀
Aquí está el flujo de trabajo:
- El usuario envía una consulta
- Ambos modelos generan tokens de razonamiento junto con la respuesta final
- La lógica de consulta, respuesta y razonamiento se envía para su evaluación
- La evaluación detallada se lleva a cabo utilizando G-Eval de Opik en cuatro métricas.
¡Implementemos esto!
1️⃣ Cargar claves API
En esta demostración, usaremos OpenRouter para acceder a los modelos gpt-oss y Qwen3.
Se requiere la clave OpenAI para el juez LLM en G-Eval.
Almacene las claves API de OpenRouter y OpenAI en un archivo .env para cargarlas en el entorno.
Mira esto 👇

2️⃣ Métrica de razonamiento lógico
Ahora crearemos métricas de evaluación para nuestra tarea utilizando G-Eval de Opik.
Esta métrica evalúa la coherencia y validez de los pasos lógicos y las conclusiones.
Mira esto 👇

3️⃣ Métrica de precisión fáctica
Esta métrica evalúa la precisión de las afirmaciones e información fácticas.
Mira esto 👇

4️⃣ Métrica de coherencia
Esta métrica evalúa la claridad y organización de la respuesta.
Mira esto 👇

5️⃣ Métrica de profundidad de análisis
Esta métrica evalúa la profundidad y la perspicacia del razonamiento.
Mira esto 👇

6️⃣ Generar respuesta del modelo
Ahora estamos listos para generar respuestas a partir de ambos modelos.
Ingresamos la consulta en el cuadro de solicitud y transmitimos las respuestas de ambos modelos simultáneamente.
Mira esto 👇

7️⃣ Evaluar el razonamiento generado
Finalmente, usamos GPT-4o como juez LLM.
Evalúa ambas respuestas de razonamiento, genera las métricas mencionadas anteriormente y proporciona detalles para cada métrica.
Mira esto 👇

Hora de probar.. (1/2)
Consulta 1: Cree un servidor MCP que observe un repositorio de GitHub en busca de nuevos problemas y los envíe a un grupo de Telegram.
Aquí están los resultados detallados:

Hora de probar.. (2/2)
Consulta 2: Cree un servidor MCP que cree una nueva página de Notion cuando alguien coloque un archivo en una carpeta específica de Google Drive.
Aquí están los resultados detallados:

Ambos modelos son muy capaces: Qwen 3 ofrece un razonamiento detallado y detallado, mientras que GPT-oss es nítido y preciso.
Siéntase libre de probarlo en consultas más desafiantes.
Aquí está todo el código:
Si lo encontraste interesante, compártelo con tu red.
Encuéntrame → @akshay_pachaar✔️
¡Para más ideas y tutoriales sobre LLMs, Agentes de IA y Aprendizaje Automático!

6 ago, 21:29
Comparemos OpenAI gpt-oss y Qwen-3 sobre matemáticas y razonamiento:
Es hora de probar.. (1/2)
Consulta 1: Un caracol sube por una pared de 10 pies. Cada día sube 3 pies, pero cada noche resbala 2 pies. ¿En qué día llegará a la cima?
Aquí están los resultados detallados:

Es hora de probar.. (2/2)
Consulta 2: Un tranvía descontrolado se dirige hacia 5 personas. Puedes tirar de una palanca para desviarlo a una vía lateral donde matará a 1 persona en su lugar. ¿Qué deberías hacer y por qué?
Aquí están los resultados detallados:

Ambos modelos son altamente capaces: Qwen 3 ofrece un razonamiento detallado y extenso, mientras que GPT-oss es preciso y conciso.
Siéntete libre de probarlo con consultas más desafiantes.
Aquí está todo el código:
Si lo encontraste interesante, compártelo con tu red.
Encuéntrame → @akshay_pachaar✔️
¡Para más ideas y tutoriales sobre LLMs, Agentes de IA y Aprendizaje Automático!

6 ago, 21:29
Comparemos OpenAI gpt-oss y Qwen-3 sobre matemáticas y razonamiento:
300.63K
Populares
Ranking
Favoritas