A redução de alucinações é ótima, mas alguns desses benchmarks parecem melhorias relativamente pequenas em uma base de maçãs com maçãs. No Aider Polyglota, sem pensar, 5 é 0,9 pontos a mais que 4o. No MMMU, 2,2 pontos acima de 4o.
Carl Vellotti
Carl Vellotti8 de ago. de 2025
GPT-5 benchmarks just dropped – much better at coding – visual reasoning higher than human phds – huge drop in hallucination We'll see how these benchmarks play out, but they look crazy
Ainda animado para usar!
3,06K