Поскольку OpenAI не обновила Рисунок 7 из GDPval с учетом коэффициента успеха GPT-5.2 в задачах длинного формата, я использовал GPT-5.2 Pro для этого. График предполагает, что процесс таков: делегировать длинные задачи ИИ, оценить результат в течение часа, а затем решить, попробовать снова или сдаться и сделать это самому.
Оригинал (GPT-5 имел процент побед 39% против человеческих экспертов, GPT-5.2 был около 72%)
134