Việc giảm ảo giác là tuyệt vời, nhưng một số tiêu chuẩn này dường như chỉ là những cải tiến tương đối nhỏ khi so sánh trực tiếp. Trên Aider Polyglot, mà không cần suy nghĩ, 5 cao hơn 4o 0.9 điểm. Trên MMMU, cao hơn 4o 2.2 điểm.
Carl Vellotti
Carl Vellotti8 thg 8, 2025
GPT-5 benchmarks just dropped – much better at coding – visual reasoning higher than human phds – huge drop in hallucination We'll see how these benchmarks play out, but they look crazy
Vẫn rất hào hứng để sử dụng!
3,06K