html - 如何防止 Httrack 再次下载相同的文件？

Question

我正在使用 httrack 下载这个网站：http: //4minutearticles.com/

但是，问题是作者在其网站的每个页面上都有返回主页的链接

例如http://4minutearticles.com/ext/

父目录链接重定向到主页，软件再次开始下载

如何防止这种循环发生？

score 3 · Accepted Answer

在下面提供的链接上阅读问题的答案：

“我有重复的文件！这是怎么回事？”

链接：http ://www.httrack.com/html/faq.html#Q1b11

还可以查看以下链接上的“过滤器：高级”：

http://www.httrack.com/html/filters.html

它可以帮助您解决您的问题。

score 1 · Accepted Answer

您可以使用过滤器来阻止 HTTRACK 下载相同的文件或文件夹。您可以通过单击“首选项和镜像选项”标签前面的“设置选项”按钮，然后打开“扫描规则”选项卡，然后单击“排除链接”按钮来设置您想要的规则。

score 0 · Accepted Answer

这通常是顶级索引（index.html 和 index-2.html）的情况。

这是一个普遍的问题，但不能轻易避免！

例如，http://www.foobar.com/和 http://www.foobar.com/index.html可能是相同的页面。但是如果网站中的链接同时引用http://www.foobar.com/和 http://www.foobar.com/index.html，这两个页面就会被捕获。而且因为http://www.foobar.com/必须有一个名称，因为您可能想在本地浏览网站（/ 会给出目录列表，而不是索引本身！），HTTrack 必须找到一个。因此，将生成两个 index.html，一个带有 -2 表示必须重命名文件。

考虑到http://www.foobar.com/和 http://www.foobar.com/index.html是相同的链接以避免重复文件可能是个好主意，不是吗？不，因为顶部索引 (/) 可以引用任何文件名，如果 index.html 通常是默认名称，则可以选择 index.htm，或者 index.php3、mydog.jpg 或任何您可以想象的名称。（有些站长真的疯了）

注意：在极少数情况下，当网站重定向到另一个文件时，可能会发现重复的数据文件。这个问题应该很少见，并且可以使用过滤器来避免。

另请参阅：更新项目

html - 如何防止 Httrack 再次下载相同的文件？

3 回答 3

Related

Reference