A medida que las evaluaciones para modelos se saturan, las "evaluaciones" para agentes se convertirán en la próxima frontera de lo que importa. También será más difícil de conseguir, ya que es tan específico/basado en tareas. ¿Es Devin mejor que Amp en refactorización? ¿Es Codex mejor que Claude Code para depuración?
316