Pengurangan halusinasi sangat bagus, tetapi beberapa tolok ukur ini tampak seperti peningkatan yang relatif kecil berdasarkan apel ke apel. Di Aider Polyglot, tanpa berpikir, 5 adalah 0,9 poin lebih tinggi dari 4o. Pada MMMU, 2,2 poin lebih tinggi dari 4o.
Carl Vellotti
Carl Vellotti8 Agu, 01.12
Tolok ukur GPT-5 baru saja turun – jauh lebih baik dalam pengkodean – penalaran visual lebih tinggi dari PhD manusia – penurunan halusinasi yang sangat besar Kita akan melihat bagaimana tolok ukur ini bermain, tetapi mereka terlihat gila
Masih bersemangat untuk digunakan!
3,03K