以下没有奏效。
wget -r -A .pdf home_page_url
它停止并显示以下消息:
....
Removing site.com/index.html.tmp since it should be rejected.
FINISHED
我不知道为什么它只在起始 url 中停止,不要进入其中的链接来搜索给定的文件类型。
递归下载网站中所有 pdf 文件的任何其他方式。?
以下没有奏效。
wget -r -A .pdf home_page_url
它停止并显示以下消息:
....
Removing site.com/index.html.tmp since it should be rejected.
FINISHED
我不知道为什么它只在起始 url 中停止,不要进入其中的链接来搜索给定的文件类型。
递归下载网站中所有 pdf 文件的任何其他方式。?
它可能基于 robots.txt。尝试添加-e robots=off
.
其他可能的问题是基于 cookie 的身份验证或 wget 的代理拒绝。 请参阅这些示例。
以下 cmd 适用于我,它将下载网站的图片
wget -A pdf,jpg,png -m -p -E -k -K -np http://site/path/
这肯定是因为 HTML 中的链接不以 / 结尾。
如果 Wget 认为它是一个文件(但与您的过滤器不匹配),则不会遵循这一点:
<a href="link">page</a>
但会遵循这个:
<a href="link/">page</a>
您可以使用该--debug
选项来查看它是否是实际问题。
我不知道有什么好的解决方案。在我看来,这是一个错误。