html - 如何让 httrack 以原始名称而不是 index****.html 保存文件？

Question

我需要抓取的网站具有以下结构的 URL：

https://www.example.com/index.php?HelpTopics

https://www.example.com/index.php?MoreHelp

等等

使用 HTTrack，我想下载网站保存文件的格式

HelpTopics.html MoreHelp.html等等

我在从上面链接的文档修改的命令行上使用它：

httrack "https://www.example.com" %n%[index.php?:-:::].%t

但我仍然将所有文件保存为index2b26.html等index2de7.html。

HTTrack 选项我做错了什么？这是因为原始站点上没有文件扩展名而导致中断example.com吗？

score 0 · Accepted Answer

从链接中，paramin%[param:before:after:empty:notfound]应该是 GET 查询中的变量。由于您的 URL 没有变量，我认为默认文件名是正确的。

score 0 · Accepted Answer

wget我发现使用原始名称保存文件要容易得多。这样做：

wget --mirror -p --convert-links --content-disposition --trust-server-names -P examplefolder http://www.example.com

2 回答 2