Karena OpenAI tidak memperbarui Gambar 7 dari GDPval mengingat tingkat keberhasilan GPT-5.2 pada tugas berdurasi panjang, saya menggunakan GPT-5.2 Pro untuk melakukannya. Bagan mengasumsikan prosesnya adalah: delegasikan tugas panjang ke AI, evaluasi output selama satu jam, lalu putuskan untuk mencoba lagi atau menyerah & melakukannya sendiri.
Asli (GPT-5 memiliki tingkat kemenangan 39% melawan ahli manusia, GPT-5.2 sekitar 72%)
182