Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vamos comparar o OpenAI gpt-oss e o Qwen-3 em matemática e raciocínio:
Before we dive in, here's a quick demo of what we're building!
Tech stack:
- @LiteLLM for orchestration
- @Cometml's Opik to build the eval pipeline (open-source)
- @OpenRouterAI to access the models
You'll also learn about G-Eval & building custom eval metrics.
Let's go! 🚀
Aqui está o fluxo de trabalho:
- O usuário envia uma consulta
- Ambos os modelos geram tokens de raciocínio juntamente com a resposta final
- Consulta, resposta e lógica de raciocínio são enviadas para avaliação
- Uma avaliação detalhada é realizada usando o G-Eval da Opik em quatro métricas.
Vamos implementar isso!
1️⃣ Carregar chaves da API
Nesta demonstração, usaremos o OpenRouter para acessar os modelos gpt-oss e Qwen3.
A chave OpenAI é necessária para o juiz LLM no G-Eval.
Armazene as chaves da API do OpenRouter e OpenAI em um arquivo .env para carregar no ambiente.
Verifique isto 👇

2️⃣ Métrica de Raciocínio Lógico
Agora vamos criar métricas de avaliação para a nossa tarefa usando o G-Eval da Opik.
Esta métrica avalia a coerência e a validade dos passos lógicos e das conclusões.
Confira isso 👇

3️⃣ Métrica de Precisão Factual
Esta métrica avalia a precisão de afirmações e informações factuais.
Confira isto 👇

4️⃣ Métrica de Coerência
Esta métrica avalia a clareza e a organização da resposta.
Veja isto 👇

5️⃣ Métrica de Profundidade de Análise
Esta métrica avalia a profundidade e a perspicácia do raciocínio.
Confira isto 👇

6️⃣ Gerar resposta do modelo
Agora estamos prontos para gerar respostas de ambos os modelos.
Inserimos a consulta na caixa de prompt e transmitimos respostas de ambos os modelos simultaneamente.
Verifique isto 👇

7️⃣ Avaliar o raciocínio gerado
Finalmente, usamos o GPT-4o como o LLM juiz.
Ele avalia ambas as respostas de raciocínio, gera as métricas mencionadas acima e fornece detalhes para cada métrica.
Confira isto 👇

Hora de testar.. (1/2)
Consulta 1: Criar um servidor MCP que monitore um repositório do GitHub em busca de novas questões e as envie para um grupo no Telegram.
Aqui estão os resultados detalhados:

Hora de testar.. (2/2)
Consulta 2: Criar um servidor MCP que cria uma nova página no Notion quando alguém coloca um arquivo em uma pasta específica do Google Drive.
Aqui estão os resultados detalhados:

Ambos os modelos são altamente capazes: o Qwen 3 oferece raciocínio detalhado e extenso, enquanto o GPT-oss é conciso e preciso.
Sinta-se à vontade para testá-lo em consultas mais desafiadoras.
Aqui está todo o código:
Se achou útil, compartilhe com a sua rede.
Encontre-me → @akshay_pachaar✔️
Para mais insights e tutoriais sobre LLMs, Agentes de IA e Aprendizado de Máquina!

6/08, 21:29
Vamos comparar o OpenAI gpt-oss e o Qwen-3 em matemática e raciocínio:
Hora de testar.. (1/2)
Consulta 1: Um caracol sobe uma parede de 10 pés. A cada dia sobe 3 pés, mas a cada noite escorrega de volta 2 pés. Em qual dia ele chegará ao topo?
Aqui estão os resultados detalhados:

Hora de testar.. (2/2)
Consulta 2: Um bonde desgovernado está a caminho de 5 pessoas. Você pode puxar uma alavanca para desviar o bonde para uma linha lateral onde ele matará 1 pessoa em vez disso. O que você deve fazer e por quê?
Aqui estão os resultados detalhados:

Ambos os modelos são altamente capazes: o Qwen 3 oferece raciocínio detalhado e extenso, enquanto o GPT-oss é conciso e preciso.
Sinta-se à vontade para testá-lo em consultas mais desafiadoras.
Aqui está todo o código:
Se achou útil, compartilhe com a sua rede.
Encontre-me → @akshay_pachaar✔️
Para mais insights e tutoriais sobre LLMs, Agentes de IA e Aprendizado de Máquina!

6/08, 21:29
Vamos comparar o OpenAI gpt-oss e o Qwen-3 em matemática e raciocínio:
300,64K
Top
Classificação
Favoritos