Redukcja halucynacji jest świetna, ale niektóre z tych benchmarków wydają się być stosunkowo małymi poprawkami w porównaniu jeden do jednego. Na Aider Polyglot, bez zastanawiania się, 5 jest o 0,9 punktu wyższe niż 4o. Na MMMU, o 2,2 punkty wyższe niż 4o.
Carl Vellotti
Carl Vellotti8 sie 2025
GPT-5 benchmarks just dropped – much better at coding – visual reasoning higher than human phds – huge drop in hallucination We'll see how these benchmarks play out, but they look crazy
Wciąż podekscytowany używaniem!
3,05K