4

我正在使用 httrack 下载这个网站:http: //4minutearticles.com/

但是,问题是作者在其网站的每个页面上都有返回主页的链接

例如http://4minutearticles.com/ext/

父目录链接重定向到主页,软件再次开始下载

如何防止这种循环发生?

4

3 回答 3

3

在下面提供的链接上阅读问题的答案:

“我有重复的文件!这是怎么回事?”

链接:http ://www.httrack.com/html/faq.html#Q1b11

还可以查看以下链接上的“过滤器:高级”:

http://www.httrack.com/html/filters.html

它可以帮助您解决您的问题。

于 2012-08-10T06:00:32.637 回答
1

您可以使用过滤器来阻止 HTTRACK 下载相同的文件或文件夹。您可以通过单击“首选项和镜像选项”标签前面的“设置选项”按钮,然后打开“扫描规则”选项卡,然后单击“排除链接”按钮来设置您想要的规则。

于 2012-08-10T05:43:10.373 回答
0

这通常是顶级索引(index.html 和 index-2.html)的情况。

这是一个普遍的问题,但不能轻易避免!

例如,http://www.foobar.com/http://www.foobar.com/index.html可能是相同的页面。但是如果网站中的链接同时引用http://www.foobar.com/http://www.foobar.com/index.html,这两个页面就会被捕获。而且因为http://www.foobar.com/必须有一个名称,因为您可能想在本地浏览网站(/ 会给出目录列表,而不是索引本身!),HTTrack 必须找到一个。因此,将生成两个 index.html,一个带有 -2 表示必须重命名文件。

考虑到http://www.foobar.com/http://www.foobar.com/index.html是相同的链接以避免重复文件可能是个好主意,不是吗?不,因为顶部索引 (/) 可以引用任何文件名,如果 index.html 通常是默认名称,则可以选择 index.htm,或者 index.php3、mydog.jpg 或任何您可以想象的名称。(有些站长真的疯了)

注意:在极少数情况下,当网站重定向到另一个文件时,可能会发现重复的数据文件。这个问题应该很少见,并且可以使用过滤器来避免。

另请参阅:更新项目

于 2014-06-30T15:51:00.737 回答