我正在尝试使用 wget 检索工作网页,这适用于大多数使用以下命令的网站:
wget -p -k http://www.example.com
在这些情况下,我最终会得到 index.html 和所需的 CSS/JS 等。
但是,在某些情况下,url 会有一个查询字符串,在这些情况下,我会得到一个 index.html,并附加了查询字符串。
例子
www.onlinetechvision.com/?p=566
结合上面的 wget 命令会产生:
index.html?page=566
我试过使用 --restrict-file-names=windows 选项,但这只会让我
index.html@page=566
谁能解释为什么需要这样做以及我如何才能得到一个常规的 index.html 文件?
更新:我对采取不同的方法有点犹豫。我发现我可以通过解析输出来获取 wget 保存的第一个文件名。所以保存到之后出现的名字是我需要的。
然而,这被这个奇怪的字符包裹着——而不是仅仅删除那个硬编码——这是从哪里来的?