Снижение галлюцинаций отлично, но некоторые из этих показателей кажутся относительно небольшими улучшениями на равных условиях. На Aider Polyglot, не задумываясь, 5 на 0.9 пункта выше, чем 4o. На MMMU, на 2.2 пункта выше, чем 4o.
Carl Vellotti
Carl Vellotti8 авг. 2025 г.
GPT-5 benchmarks just dropped – much better at coding – visual reasoning higher than human phds – huge drop in hallucination We'll see how these benchmarks play out, but they look crazy
Все еще в восторге от использования!
3,08K