1

我有以下 wget 命令:

wget --http-user='user' --http-password='password' --trust-server-names --quiet -r -p -k -E -e robots=off -P /Users/Sebastian/Desktop/test/ http://somedomain.com

除了以下内容之外,这可以完成我想做的所有事情。它从此重写了我的规范链接:

<link rel="canonical" href="http://somedomain.com/somedir/somedir/somedir/folder/" />

对此:

<link rel="canonical" href="index.html" />

知道如何将规范链接排除在重写过程之外吗?

4

1 回答 1

0

我们能否仅从给定的 URL 中检测 URL 是否被标记为规范?因为一种解决方案就是不下载这些页面。

另一个解决方案 - 只需下载所有内容。比删除那些 Cannonical 标记的文件并按照此处所述重写。

于 2013-03-26T18:07:04.820 回答