Tivemos que remover a avaliação da companhia aérea τ2-bench da nossa tabela de benchmarks porque o Opus 4.5 a quebrou por ser demasiado inteligente.
O benchmark simula um agente de atendimento ao cliente de uma companhia aérea. Em um caso de teste, um cliente angustiado liga querendo mudar seu voo, mas possui um bilhete de economia básica. A política da companhia aérea simulada afirma que bilhetes de economia básica não podem ser modificados.
A resposta "correta" é que o modelo recusa o pedido.
Em vez disso, o Opus 4.5 encontrou uma brecha na política.
Ele fez um upgrade de cabine e, em seguida, modificou os voos. Ajudando o cliente e seguindo a política, mas tecnicamente falhando no caso de teste.
Transcrição do modelo:
Está a tornar-se cada vez mais difícil testar AIs à medida que se tornam "mais inteligentes" em uma ampla variedade de tarefas. A tarefa média no GDPval levou uma hora para os especialistas avaliarem, e mesmo essas tarefas não levaram as AIs atuais aos seus limites.