Comparemos OpenAI gpt-oss y Qwen-3 sobre matemáticas y razonamiento:
Before we dive in, here's a quick demo of what we're building! Tech stack: - @LiteLLM for orchestration - @Cometml's Opik to build the eval pipeline (open-source) - @OpenRouterAI to access the models You'll also learn about G-Eval & building custom eval metrics. Let's go! 🚀
Aquí está el flujo de trabajo: - El usuario envía una consulta - Ambos modelos generan tokens de razonamiento junto con la respuesta final - La lógica de consulta, respuesta y razonamiento se envía para su evaluación - La evaluación detallada se lleva a cabo utilizando G-Eval de Opik en cuatro métricas. ¡Implementemos esto!
1️⃣ Cargar claves API En esta demostración, usaremos OpenRouter para acceder a los modelos gpt-oss y Qwen3. Se requiere la clave OpenAI para el juez LLM en G-Eval. Almacene las claves API de OpenRouter y OpenAI en un archivo .env para cargarlas en el entorno. Mira esto 👇
2️⃣ Métrica de razonamiento lógico Ahora crearemos métricas de evaluación para nuestra tarea utilizando G-Eval de Opik. Esta métrica evalúa la coherencia y validez de los pasos lógicos y las conclusiones. Mira esto 👇
3️⃣ Métrica de precisión fáctica Esta métrica evalúa la precisión de las afirmaciones e información fácticas. Mira esto 👇
4️⃣ Métrica de coherencia Esta métrica evalúa la claridad y organización de la respuesta. Mira esto 👇
5️⃣ Métrica de profundidad de análisis Esta métrica evalúa la profundidad y la perspicacia del razonamiento. Mira esto 👇
6️⃣ Generar respuesta del modelo Ahora estamos listos para generar respuestas a partir de ambos modelos. Ingresamos la consulta en el cuadro de solicitud y transmitimos las respuestas de ambos modelos simultáneamente. Mira esto 👇
7️⃣ Evaluar el razonamiento generado Finalmente, usamos GPT-4o como juez LLM. Evalúa ambas respuestas de razonamiento, genera las métricas mencionadas anteriormente y proporciona detalles para cada métrica. Mira esto 👇
Hora de probar.. (1/2) Consulta 1: Cree un servidor MCP que observe un repositorio de GitHub en busca de nuevos problemas y los envíe a un grupo de Telegram. Aquí están los resultados detallados:
Hora de probar.. (2/2) Consulta 2: Cree un servidor MCP que cree una nueva página de Notion cuando alguien coloque un archivo en una carpeta específica de Google Drive. Aquí están los resultados detallados:
Ambos modelos son muy capaces: Qwen 3 ofrece un razonamiento detallado y detallado, mientras que GPT-oss es nítido y preciso. Siéntase libre de probarlo en consultas más desafiantes. Aquí está todo el código:
Si lo encontraste interesante, compártelo con tu red. Encuéntrame → @akshay_pachaar✔️ ¡Para más ideas y tutoriales sobre LLMs, Agentes de IA y Aprendizaje Automático!
Akshay 🚀
Akshay 🚀6 ago, 21:29
Comparemos OpenAI gpt-oss y Qwen-3 sobre matemáticas y razonamiento:
Es hora de probar.. (1/2) Consulta 1: Un caracol sube por una pared de 10 pies. Cada día sube 3 pies, pero cada noche resbala 2 pies. ¿En qué día llegará a la cima? Aquí están los resultados detallados:
Es hora de probar.. (2/2) Consulta 2: Un tranvía descontrolado se dirige hacia 5 personas. Puedes tirar de una palanca para desviarlo a una vía lateral donde matará a 1 persona en su lugar. ¿Qué deberías hacer y por qué? Aquí están los resultados detallados:
Ambos modelos son altamente capaces: Qwen 3 ofrece un razonamiento detallado y extenso, mientras que GPT-oss es preciso y conciso. Siéntete libre de probarlo con consultas más desafiantes. Aquí está todo el código:
Si lo encontraste interesante, compártelo con tu red. Encuéntrame → @akshay_pachaar✔️ ¡Para más ideas y tutoriales sobre LLMs, Agentes de IA y Aprendizaje Automático!
Akshay 🚀
Akshay 🚀6 ago, 21:29
Comparemos OpenAI gpt-oss y Qwen-3 sobre matemáticas y razonamiento:
300.63K