Como o GPT-5 se compara ao Claude Opus 4.1 em tarefas agenciais? Desde o lançamento, avaliamos esses modelos em tarefas desafiadoras de ciência, web, serviço e código. Resultado principal: Embora econômico, até agora o GPT-5 nunca supera as tabelas de classificação de agentes. Mais avaliações 🧵
Muitos desses resultados nos surpreenderam e planejamos investigá-los mais de perto. Mas as tendências nesses benchmarks confirmam que o GPT-5 não é uma mudança radical e não melhora os outros modelos da OpenAI. Mas ele brilha nas compensações de custo-precisão - muitas vezes muito mais barato do que modelos comparáveis.
56,63K