Зменшення галюцинацій чудове, але деякі з цих контрольних показників здаються відносно невеликими покращеннями за принципом «яблуко до яблука». На Aider Polyglot, не замислюючись, 5 на 0,9 бала вище, ніж 4о. На МММУ на 2,2 бала вище, ніж на 4о.
Carl Vellotti
Carl Vellotti8 серп. 2025 р.
GPT-5 benchmarks just dropped – much better at coding – visual reasoning higher than human phds – huge drop in hallucination We'll see how these benchmarks play out, but they look crazy
Все ще в захваті від використання!
3,06K