La réduction des hallucinations est excellente, mais certains de ces repères semblent être des améliorations relativement petites sur une base comparable. Sur Aider Polyglot, sans réfléchir, 5 est 0,9 points plus élevé que 4o. Sur MMMU, 2,2 points plus élevé que 4o.
Carl Vellotti
Carl Vellotti8 août 2025
Les benchmarks de GPT-5 viennent de sortir – bien meilleur en programmation – raisonnement visuel supérieur à celui des doctorants humains – énorme baisse des hallucinations Nous verrons comment ces benchmarks se déroulent, mais ils semblent fous
Toujours aussi enthousiaste à l'idée d'utiliser !
3,06K