DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Compararemos GPT-5 y Claude Opus-4.1 para la generación de código:

Hoy, estamos construyendo un CodeArena, donde puedes comparar cualquier par de modelos de generación de código uno al lado del otro. Tecnología utilizada: - @LiteLLM para la orquestación - Opik de @Cometml para construir el pipeline de evaluación - @OpenRouterAI para acceder a modelos de vanguardia - @LightningAI para alojar CodeArena ¡Vamos!🚀

Aquí está el flujo de trabajo: - Elegir modelos para la comparación de generación de código - Importar un repositorio de GitHub y ofrecerlo como contexto a los LLMs - Usar contexto + consulta para generar código de ambos modelos - Evaluar el código generado utilizando G-Eval de Opik ¡Implementemos esto!

0️⃣ Cargar claves API En esta demostración, accederemos a GPT-5 a través de openai y al resto de los modelos utilizando OpenRouter. Guarda las claves necesarias en un archivo .env para cargarlas en el entorno. Revisa esto 👇

1️⃣ Ingestar repositorio de GitHub Usamos GitIngest para convertir un repositorio de GitHub especificado por el usuario en datos de texto sencillos y listos para LLM. Los LLM utilizarán estos datos como contexto para generar código en respuesta a la consulta del usuario. Mira esto 👇

2️⃣ Métrica de corrección del código Ahora crearemos métricas de evaluación para nuestra tarea utilizando G-Eval de Opik. Esta métrica evalúa la calidad y corrección del código generado comparándolo con un código de referencia verdadero. Mira esto 👇

3️⃣ Métrica de legibilidad del código Esta métrica asegura que el código se adhiera a un formato adecuado y a convenciones de nomenclatura consistentes. También evalúa la calidad de los comentarios y las cadenas de documentación, que hacen que el código sea fácil de entender. Mira esto 👇

4️⃣ Mejores prácticas métrica Esta métrica asegura que el código sea modular, eficiente y que implemente un manejo adecuado de errores. Mira esto 👇

5️⃣ Generar respuesta del modelo Ahora estamos listos para generar respuestas de ambos modelos. Especificamos la base de código ingerida como contexto en el aviso y transmitimos las respuestas de ambos modelos en paralelo. Revisa esto 👇

6️⃣ Evaluar el código generado Evaluamos las respuestas generadas por ambos modelos utilizando las métricas mencionadas anteriormente, proporcionando un razonamiento detallado para cada métrica. Mira esto👇

7️⃣ Interfaz de Streamlit Finalmente, creamos una interfaz intuitiva de Streamlit que simplifica la comparación y evaluación de ambos modelos dentro de una única interfaz. Consulta esto 👇

Hora de probar.. Consulta 1: Construir un servidor MCP que permita a los agentes de IA y chatbots leer código, gestionar problemas/PRs, analizar repositorios y automatizar flujos de trabajo en GitHub. A través de las tres métricas: Corrección, Legibilidad y Mejores prácticas: - GPT-5 obtuvo: 9 - Calude Opus-4.1 obtuvo: 8.67

CodeArena te permite comparar cualquier dos modelos. ¡También comparé brevemente GPT-5 con Qwen3-Coder! Consulta 2: El servidor MCP se conecta a la API de Notion, permitiendo que la IA gestione notas, listas de tareas y bases de datos para mejorar la productividad y la organización. Mira esto 👇

¡Puedes encontrar todo el código y todo lo que necesitas para ejecutar CodeArena en el @LightningAI Studio a continuación! ¡Pruébalo!

Finalmente, aquí hay 10 evaluaciones más que realicé utilizando Opik para construir servidores MCP. - GPT-5 ganó en 6 casos. - Claude Opus 4.1 ganó en los 4 restantes. En general, ambos modelos son excepcionalmente buenos, siendo GPT-5 ligeramente mejor. Mira esto 👇

Si lo encontraste interesante, compártelo con tu red. Encuéntrame → @akshay_pachaar✔️ ¡Para más ideas y tutoriales sobre LLMs, Agentes de IA y Aprendizaje Automático!

34,09K

Parte superior

Clasificación

Favoritos

En tendencia on-chain

En tendencia en X

Principales fondos recientes

Más destacado