Como se compara o GPT-5 com o Claude Opus 4.1 em tarefas agentivas? Desde o seu lançamento, temos avaliado estes modelos em tarefas desafiadoras de ciência, web, serviços e código. Resultado principal: Embora seja rentável, até agora o GPT-5 nunca liderou as tabelas de classificação agentivas. Mais avaliações 🧵
Muitos desses resultados nos surpreenderam, e planejamos investigá-los mais de perto. Mas as tendências nesses benchmarks confirmam que o GPT-5 não é uma mudança significativa e não melhora os outros modelos da OpenAI. No entanto, ele se destaca nas compensações entre custo e precisão — muitas vezes sendo muito mais barato do que modelos comparáveis.
56,63K