À medida que as avaliações para modelos se tornam saturadas, as "avaliações" para agentes se tornarão a próxima fronteira do que importa Será mais difícil de obter também, uma vez que é tão específico/baseado em tarefas Devin é melhor que Amp em refatoração? Codex é melhor que Claude Code para depuração?
324