Então, depois de brincar com isso durante a maior parte do dia, nenhum dos dois conseguiu fazer isso (esperado), mas o GPT5 via Codex desistiu de muito e simplesmente travou (exemplo abaixo). Dito isso, o que acabou funcionando foi fazer com que o GPT5 criasse a especificação detalhada com base no artigo do arxiv e, em seguida, revisasse o código opus
xjdr
xjdr10 de ago., 00:50
"Como você faz benchmarking de novos modelos?"
Você tem que saber o que está fazendo para direcionar o tráfego e eu tive que criar os arreios de teste e passar nos critérios, mas seus poderes combinados fizeram algo que rivaliza com minha versão existente. teste inicial bastante impressionante, se estou sendo honesto ...
23,87K