يعد الحد من الهلوسة أمرا رائعا ، لكن بعض هذه المعايير تبدو وكأنها تحسينات صغيرة نسبيا على أساس التفاح إلى التفاح. في Aider Polyglot ، دون تفكير ، 5 أعلى بمقدار 0.9 نقطة من 4o. في MMMU ، 2.2 نقطة أعلى من 4 درجات.
Carl Vellotti
Carl Vellotti‏8 أغسطس 2025
GPT-5 benchmarks just dropped – much better at coding – visual reasoning higher than human phds – huge drop in hallucination We'll see how these benchmarks play out, but they look crazy
لا تزال متحمسا للاستخدام!
‏‎3.06‏K