Como a OpenAI não atualizou a Figura 7 do GDPval dado a taxa de sucesso do GPT-5.2 em tarefas longas, usei o GPT-5.2 Pro para fazê-lo. O gráfico assume que o processo é: delegar tarefas longas à IA, avaliar a saída por uma hora, e então decidir tentar novamente ou desistir e fazer você mesmo.
Original (o GPT-5 teve uma taxa de vitória de 39% contra especialistas humanos, o GPT-5.2 estava em torno de 72%)
O GDPval continua a ser um dos artigos sobre IA mais importantes do ano passado. Uma visão de como a IA realiza trabalho economicamente valioso.
190