Việc giảm ảo giác là tuyệt vời, nhưng một số tiêu chuẩn này dường như chỉ là những cải tiến tương đối nhỏ khi so sánh trực tiếp. Trên Aider Polyglot, mà không cần suy nghĩ, 5 cao hơn 4o 0.9 điểm. Trên MMMU, cao hơn 4o 2.2 điểm.
Carl Vellotti
Carl Vellotti8 thg 8, 2025
Các tiêu chuẩn đánh giá GPT-5 vừa được công bố – tốt hơn nhiều trong lập trình – khả năng lý luận hình ảnh cao hơn cả tiến sĩ con người – giảm mạnh hiện tượng ảo giác Chúng ta sẽ xem những tiêu chuẩn này diễn ra như thế nào, nhưng chúng trông thật điên rồ.
Vẫn rất hào hứng để sử dụng!
3,07K