À medida que as avaliações dos modelos se tornam saturadas, as "avaliações" dos agentes se tornarão a próxima fronteira do que importa Será mais difícil de adquirir também, pois é muito específico / baseado em tarefas Devin é melhor do que Amp em refatoração? O Codex é melhor do que o Claude Code para depuração?
310