Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Compararemos GPT-5 y Claude Opus-4.1 para la generación de código:
Hoy, estamos construyendo un CodeArena, donde puedes comparar cualquier par de modelos de generación de código uno al lado del otro.
Tecnología utilizada:
- @LiteLLM para la orquestación
- Opik de @Cometml para construir el pipeline de evaluación
- @OpenRouterAI para acceder a modelos de vanguardia
- @LightningAI para alojar CodeArena
¡Vamos!🚀
Aquí está el flujo de trabajo:
- Elegir modelos para la comparación de generación de código
- Importar un repositorio de GitHub y ofrecerlo como contexto a los LLMs
- Usar contexto + consulta para generar código de ambos modelos
- Evaluar el código generado utilizando G-Eval de Opik
¡Implementemos esto!
0️⃣ Cargar claves API
En esta demostración, accederemos a GPT-5 a través de openai y al resto de los modelos utilizando OpenRouter.
Guarda las claves necesarias en un archivo .env para cargarlas en el entorno.
Revisa esto 👇

1️⃣ Ingestar repositorio de GitHub
Usamos GitIngest para convertir un repositorio de GitHub especificado por el usuario en datos de texto sencillos y listos para LLM.
Los LLM utilizarán estos datos como contexto para generar código en respuesta a la consulta del usuario.
Mira esto 👇

2️⃣ Métrica de corrección del código
Ahora crearemos métricas de evaluación para nuestra tarea utilizando G-Eval de Opik.
Esta métrica evalúa la calidad y corrección del código generado comparándolo con un código de referencia verdadero.
Mira esto 👇

3️⃣ Métrica de legibilidad del código
Esta métrica asegura que el código se adhiera a un formato adecuado y a convenciones de nomenclatura consistentes.
También evalúa la calidad de los comentarios y las cadenas de documentación, que hacen que el código sea fácil de entender.
Mira esto 👇

4️⃣ Mejores prácticas métrica
Esta métrica asegura que el código sea modular, eficiente y que implemente un manejo adecuado de errores.
Mira esto 👇

5️⃣ Generar respuesta del modelo
Ahora estamos listos para generar respuestas de ambos modelos.
Especificamos la base de código ingerida como contexto en el aviso y transmitimos las respuestas de ambos modelos en paralelo.
Revisa esto 👇

6️⃣ Evaluar el código generado
Evaluamos las respuestas generadas por ambos modelos utilizando las métricas mencionadas anteriormente, proporcionando un razonamiento detallado para cada métrica.
Mira esto👇

7️⃣ Interfaz de Streamlit
Finalmente, creamos una interfaz intuitiva de Streamlit que simplifica la comparación y evaluación de ambos modelos dentro de una única interfaz.
Consulta esto 👇

Hora de probar..
Consulta 1: Construir un servidor MCP que permita a los agentes de IA y chatbots leer código, gestionar problemas/PRs, analizar repositorios y automatizar flujos de trabajo en GitHub.
A través de las tres métricas: Corrección, Legibilidad y Mejores prácticas:
- GPT-5 obtuvo: 9
- Calude Opus-4.1 obtuvo: 8.67

CodeArena te permite comparar cualquier dos modelos. ¡También comparé brevemente GPT-5 con Qwen3-Coder!
Consulta 2: El servidor MCP se conecta a la API de Notion, permitiendo que la IA gestione notas, listas de tareas y bases de datos para mejorar la productividad y la organización.
Mira esto 👇

¡Puedes encontrar todo el código y todo lo que necesitas para ejecutar CodeArena en el @LightningAI Studio a continuación!
¡Pruébalo!
Finalmente, aquí hay 10 evaluaciones más que realicé utilizando Opik para construir servidores MCP.
- GPT-5 ganó en 6 casos.
- Claude Opus 4.1 ganó en los 4 restantes.
En general, ambos modelos son excepcionalmente buenos, siendo GPT-5 ligeramente mejor.
Mira esto 👇

Si lo encontraste interesante, compártelo con tu red.
Encuéntrame → @akshay_pachaar✔️
¡Para más ideas y tutoriales sobre LLMs, Agentes de IA y Aprendizaje Automático!

8 ago, 22:31
Compararemos GPT-5 y Claude Opus-4.1 para la generación de código:
34,09K
Parte superior
Clasificación
Favoritos