Vamos comparar o OpenAI gpt-oss e o Qwen-3 em matemática e raciocínio:
Before we dive in, here's a quick demo of what we're building! Tech stack: - @LiteLLM for orchestration - @Cometml's Opik to build the eval pipeline (open-source) - @OpenRouterAI to access the models You'll also learn about G-Eval & building custom eval metrics. Let's go! 🚀
Aqui está o fluxo de trabalho: - O usuário envia uma consulta - Ambos os modelos geram tokens de raciocínio juntamente com a resposta final - Consulta, resposta e lógica de raciocínio são enviadas para avaliação - Uma avaliação detalhada é realizada usando o G-Eval da Opik em quatro métricas. Vamos implementar isso!
1️⃣ Carregar chaves da API Nesta demonstração, usaremos o OpenRouter para acessar os modelos gpt-oss e Qwen3. A chave OpenAI é necessária para o juiz LLM no G-Eval. Armazene as chaves da API do OpenRouter e OpenAI em um arquivo .env para carregar no ambiente. Verifique isto 👇
2️⃣ Métrica de Raciocínio Lógico Agora vamos criar métricas de avaliação para a nossa tarefa usando o G-Eval da Opik. Esta métrica avalia a coerência e a validade dos passos lógicos e das conclusões. Confira isso 👇
3️⃣ Métrica de Precisão Factual Esta métrica avalia a precisão de afirmações e informações factuais. Confira isto 👇
4️⃣ Métrica de Coerência Esta métrica avalia a clareza e a organização da resposta. Veja isto 👇
5️⃣ Métrica de Profundidade de Análise Esta métrica avalia a profundidade e a perspicácia do raciocínio. Confira isto 👇
6️⃣ Gerar resposta do modelo Agora estamos prontos para gerar respostas de ambos os modelos. Inserimos a consulta na caixa de prompt e transmitimos respostas de ambos os modelos simultaneamente. Verifique isto 👇
7️⃣ Avaliar o raciocínio gerado Finalmente, usamos o GPT-4o como o LLM juiz. Ele avalia ambas as respostas de raciocínio, gera as métricas mencionadas acima e fornece detalhes para cada métrica. Confira isto 👇
Hora de testar.. (1/2) Consulta 1: Criar um servidor MCP que monitore um repositório do GitHub em busca de novas questões e as envie para um grupo no Telegram. Aqui estão os resultados detalhados:
Hora de testar.. (2/2) Consulta 2: Criar um servidor MCP que cria uma nova página no Notion quando alguém coloca um arquivo em uma pasta específica do Google Drive. Aqui estão os resultados detalhados:
Ambos os modelos são altamente capazes: o Qwen 3 oferece raciocínio detalhado e extenso, enquanto o GPT-oss é conciso e preciso. Sinta-se à vontade para testá-lo em consultas mais desafiadoras. Aqui está todo o código:
Se achou útil, compartilhe com a sua rede. Encontre-me → @akshay_pachaar✔️ Para mais insights e tutoriais sobre LLMs, Agentes de IA e Aprendizado de Máquina!
Akshay 🚀
Akshay 🚀6/08, 21:29
Vamos comparar o OpenAI gpt-oss e o Qwen-3 em matemática e raciocínio:
Hora de testar.. (1/2) Consulta 1: Um caracol sobe uma parede de 10 pés. A cada dia sobe 3 pés, mas a cada noite escorrega de volta 2 pés. Em qual dia ele chegará ao topo? Aqui estão os resultados detalhados:
Hora de testar.. (2/2) Consulta 2: Um bonde desgovernado está a caminho de 5 pessoas. Você pode puxar uma alavanca para desviar o bonde para uma linha lateral onde ele matará 1 pessoa em vez disso. O que você deve fazer e por quê? Aqui estão os resultados detalhados:
Ambos os modelos são altamente capazes: o Qwen 3 oferece raciocínio detalhado e extenso, enquanto o GPT-oss é conciso e preciso. Sinta-se à vontade para testá-lo em consultas mais desafiadoras. Aqui está todo o código:
Se achou útil, compartilhe com a sua rede. Encontre-me → @akshay_pachaar✔️ Para mais insights e tutoriais sobre LLMs, Agentes de IA e Aprendizado de Máquina!
Akshay 🚀
Akshay 🚀6/08, 21:29
Vamos comparar o OpenAI gpt-oss e o Qwen-3 em matemática e raciocínio:
300,23K