我想将一个简单的受密码保护的门户网站镜像到我想保持镜像和最新的一些数据。本质上,这个网站只是一个目录列表,其中的数据组织到文件夹中,我并不真正关心保留 html 文件和其他格式元素。但是有一些巨大的文件类型太大而无法下载,所以我想忽略这些。
使用该wget -m -R/--reject
标志几乎可以满足我的要求,除了下载所有文件,然后如果它们与 -R 标志匹配,那么它们就会被删除。
这是我的使用方式wget
:
wget --http-user userName --http-password password -R index.html,*tiff,*bam,*bai -m http://web.server.org/
它产生这样的输出,确认排除的文件 (index.html) (a) 被下载,然后 (b) 被删除:
...
--2012-05-23 09:38:38-- http://web.server.org/folder/
重用与 web.server.org:80 的现有连接。
已发送 HTTP 请求,等待响应... 401 需要授权
重用与 web.server.org:80 的现有连接。
HTTP 请求已发送,等待响应... 200 OK
长度:2677 (2.6K) [text/html]
保存到:`web.server.org/folder/index.html' 100%[======== ==================================================== ==================================================== ==========>] 2,677 --.-K/s in 0s缺少上次修改的标头——时间戳已关闭。
2012-05-23 09:38:39 (328 MB/s) - 保存了“web.server.org/folder/index.html” [2677/2677]
删除 web.server.org/folder/index.html,因为它应该被拒绝。
...
有没有办法强制 wget 在下载文件之前拒绝该文件?
有没有我应该考虑的替代方案?
另外,尽管提供了用户名和密码,为什么401 Authorization Required
每个下载的文件都会出错。这就像wget
在尝试用户名/密码之前每次都尝试未经身份验证的连接。
谢谢,马克