1

我在这里关注 HTTrack 文档示例:http: //httrack.kauler.com/help/User-defined_structure

我需要抓取的网站具有以下结构的 URL:

https://www.example.com/index.php?HelpTopics

https://www.example.com/index.php?MoreHelp

等等

使用 HTTrack,我想下载网站保存文件的格式

HelpTopics.html MoreHelp.html等等

我在从上面链接的文档修改的命令行上使用它:

httrack "https://www.example.com" %n%[index.php?:-:::].%t

但我仍然将所有文件保存为index2b26.htmlindex2de7.html

HTTrack 选项我做错了什么?这是因为原始站点上没有文件扩展名而导致中断example.com吗?

4

2 回答 2

0

从链接中,paramin%[param:before:after:empty:notfound]应该是 GET 查询中的变量。由于您的 URL 没有变量,我认为默认文件名是正确的。

于 2021-11-07T04:05:28.803 回答
0

wget我发现使用原始名称保存文件要容易得多。这样做:

wget --mirror -p --convert-links --content-disposition --trust-server-names -P examplefolder http://www.example.com

于 2017-07-14T14:47:44.657 回答