Os LLMs estão a esmagar benchmarks a um ritmo alucinante. Mesmo aqueles que não deveriam. Pesquisadores da CMU e da Anthropic criaram tarefas onde as especificações contradizem os testes: qualquer aprovação = trapaça. Os modelos Frontier trapaceiam surpreendentemente frequentemente.