Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vamos comparar o GPT-5 e o Claude Opus-4.1 para geração de código:
Hoje, estamos a construir um CodeArena, onde podes comparar quaisquer dois modelos de geração de código lado a lado.
Stack tecnológico:
- @LiteLLM para orquestração
- Opik da @Cometml para construir o pipeline de avaliação
- @OpenRouterAI para aceder a modelos de ponta
- @LightningAI para alojar o CodeArena
Vamos lá!🚀
Aqui está o fluxo de trabalho:
- Escolher modelos para comparação de geração de código
- Importar um repositório do GitHub e oferecê-lo como contexto para os LLMs
- Usar contexto + consulta para gerar código a partir de ambos os modelos
- Avaliar o código gerado usando o G-Eval da Opik
Vamos implementar isso!
0️⃣ Carregar chaves da API
Nesta demonstração, vamos aceder ao GPT-5 através da openai e ao resto dos modelos usando o OpenRouter.
Armazene as chaves necessárias num arquivo .env para carregar no ambiente.
Verifique isto 👇

1️⃣ Ingestão de repositório GitHub
Usamos o GitIngest para converter um repositório GitHub especificado pelo usuário em dados de texto simples, prontos para LLM.
Os LLMs utilizarão esses dados como contexto para gerar código em resposta à consulta do usuário.
Veja isto 👇

2️⃣ Métrica de correção de código
Agora vamos criar métricas de avaliação para a nossa tarefa usando o G-Eval da Opik.
Esta métrica avalia a qualidade e a correção do código gerado, comparando-o com um código de referência verdadeiro.
Confira isto 👇

3️⃣ Métrica de legibilidade do código
Esta métrica garante que o código adere a uma formatação adequada e a convenções de nomenclatura consistentes.
Ela também avalia a qualidade dos comentários e das docstrings, que tornam o código fácil de entender.
Veja isto 👇

4️⃣ Melhores práticas de métrica
Esta métrica garante que o código seja modular, eficiente e implemente um tratamento de erros adequado.
Veja isto 👇

5️⃣ Gerar resposta do modelo
Agora estamos prontos para gerar respostas de ambos os modelos.
Especificamos a base de código ingerida como contexto no prompt e transmitimos as respostas de ambos os modelos em paralelo.
Verifique isto 👇

6️⃣ Avaliar o código gerado
Nós avaliamos as respostas geradas por ambos os modelos usando as métricas mencionadas acima, fornecendo uma explicação detalhada para cada métrica.
Confira isto👇

7️⃣ Streamlit UI
Finalmente, criamos uma interface intuitiva Streamlit que simplifica a comparação e avaliação de ambos os modelos dentro de uma única interface.
Veja isto 👇

Hora de testar..
Consulta 1: Criar um servidor MCP que permita a agentes de IA e chatbots ler código, gerir problemas/PRs, analisar repositórios e automatizar fluxos de trabalho no GitHub.
Através das três métricas: Correção, Legibilidade e Melhores práticas:
- GPT-5 obteve: 9
- Calude Opus-4.1 obteve: 8.67

O CodeArena permite que você compare quaisquer dois modelos. Eu também comparei brevemente o GPT-5 com o Qwen3-Coder!
Consulta 2: O Servidor MCP conecta-se à API do Notion, permitindo que a IA gerencie notas, listas de tarefas e bancos de dados para aumentar a produtividade e a organização.
Confira isto 👇

Você pode encontrar todo o código e tudo o que precisa para executar o CodeArena no @LightningAI Studio abaixo!
Experimente:
Finalmente, aqui estão mais 10 avaliações que fiz usando o Opik para construir servidores MCP.
- O GPT-5 venceu em 6 casos.
- O Claude Opus 4.1 venceu nos 4 restantes.
No geral, ambos os modelos são excepcionalmente bons, com o GPT-5 ligeiramente melhor.
Veja isto 👇

Se achou útil, compartilhe com a sua rede.
Encontre-me → @akshay_pachaar✔️
Para mais insights e tutoriais sobre LLMs, Agentes de IA e Aprendizado de Máquina!

8/08, 22:31
Vamos comparar o GPT-5 e o Claude Opus-4.1 para geração de código:
34,09K
Top
Classificação
Favoritos