A medida que las evaluaciones de los modelos se saturen, las "evaluaciones de los agentes" se convertirán en la próxima frontera de lo que importa También será más difícil de adquirir ya que es muy específico / basado en tareas ¿Es Devin mejor que Amp en la refactorización? ¿Es Codex mejor que Claude Code para la depuración?
302