我正在使用 httrack 下载这个网站:http: //4minutearticles.com/
但是,问题是作者在其网站的每个页面上都有返回主页的链接
例如http://4minutearticles.com/ext/
父目录链接重定向到主页,软件再次开始下载
如何防止这种循环发生?
我正在使用 httrack 下载这个网站:http: //4minutearticles.com/
但是,问题是作者在其网站的每个页面上都有返回主页的链接
例如http://4minutearticles.com/ext/
父目录链接重定向到主页,软件再次开始下载
如何防止这种循环发生?
在下面提供的链接上阅读问题的答案:
“我有重复的文件!这是怎么回事?”
链接:http ://www.httrack.com/html/faq.html#Q1b11
还可以查看以下链接上的“过滤器:高级”:
http://www.httrack.com/html/filters.html
它可以帮助您解决您的问题。
您可以使用过滤器来阻止 HTTRACK 下载相同的文件或文件夹。您可以通过单击“首选项和镜像选项”标签前面的“设置选项”按钮,然后打开“扫描规则”选项卡,然后单击“排除链接”按钮来设置您想要的规则。
这通常是顶级索引(index.html 和 index-2.html)的情况。
这是一个普遍的问题,但不能轻易避免!
例如,http://www.foobar.com/和 http://www.foobar.com/index.html可能是相同的页面。但是如果网站中的链接同时引用http://www.foobar.com/和 http://www.foobar.com/index.html,这两个页面就会被捕获。而且因为http://www.foobar.com/必须有一个名称,因为您可能想在本地浏览网站(/ 会给出目录列表,而不是索引本身!),HTTrack 必须找到一个。因此,将生成两个 index.html,一个带有 -2 表示必须重命名文件。
考虑到http://www.foobar.com/和 http://www.foobar.com/index.html是相同的链接以避免重复文件可能是个好主意,不是吗?不,因为顶部索引 (/) 可以引用任何文件名,如果 index.html 通常是默认名称,则可以选择 index.htm,或者 index.php3、mydog.jpg 或任何您可以想象的名称。(有些站长真的疯了)
注意:在极少数情况下,当网站重定向到另一个文件时,可能会发现重复的数据文件。这个问题应该很少见,并且可以使用过滤器来避免。
另请参阅:更新项目