A redução de alucinações é ótima, mas alguns desses benchmarks parecem melhorias relativamente pequenas em uma comparação direta. No Aider Polyglot, sem pensar, 5 é 0,9 pontos mais alto que 4o. No MMMU, 2,2 pontos mais alto que 4o.
Carl Vellotti
Carl Vellotti8/08/2025
GPT-5 benchmarks just dropped – much better at coding – visual reasoning higher than human phds – huge drop in hallucination We'll see how these benchmarks play out, but they look crazy
Ainda estou entusiasmado para usar!
3,05K