يعد الحد من الهلوسة أمرا رائعا ، لكن بعض هذه المعايير تبدو وكأنها تحسينات صغيرة نسبيا على أساس التفاح إلى التفاح. في Aider Polyglot ، دون تفكير ، 5 أعلى بمقدار 0.9 نقطة من 4o. في MMMU ، 2.2 نقطة أعلى من 4 درجات.
Carl Vellotti
Carl Vellotti‏8 أغسطس 2025
انخفضت معايير GPT-5 للتو - أفضل بكثير في الترميز – التفكير البصري أعلى من الدكتوراه البشرية – انخفاض كبير في الهلوسة سنرى كيف تلعب هذه المعايير ، لكنها تبدو مجنونة
لا تزال متحمسا للاستخدام!
‏‎3.09‏K