因此,以前使用 FTP 的站点现在有一个 HTTP 前端,并且不允许 FTP 连接。有问题的站点(例如目录)将显示一个页面,其中包含指向不同日期的链接。在每个不同的日期中,都有很多文件,我通常只需要获取一些具有某种清晰模式的文件,例如*h17v04*.hdf
. 我认为这可以工作:
wget -I "${PLATFORM}/${PRODUCT}/${YEAR}.*" -r -l 4 \
--user-agent="Mozilla/5.0 (Windows NT 5.2; rv:2.0.1) Gecko/20100101 Firefox/4.0.1" \
--verbose -c -np -nc -nd \
-A "*h17v04*.hdf" http://e4ftl01.cr.usgs.gov/$PLATFORM/$PRODUCT/
其中PLATFORM=MOLT
,PRODUCT=MOD09GA.005
和YEAR=2004
, 例如。这似乎开始查看所有有用的日期,找到index.html
,然后直接跳到下一个目录,而不下载相关的 hdf 文件:
--2013-06-14 13:09:18-- http://e4ftl01.cr.usgs.gov/MOLT/MOD09GA.005/2004.01.01/
Reusing existing connection to e4ftl01.cr.usgs.gov:80.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Saving to: `e4ftl01.cr.usgs.gov/MOLT/MOD09GA.005/2004.01.01/index.html'
[ <=> ] 174,182 134K/s in 1.3s
2013-06-14 13:09:20 (134 KB/s) - `e4ftl01.cr.usgs.gov/MOLT/MOD09GA.005/2004.01.01/index.html' saved [174182]
Removing e4ftl01.cr.usgs.gov/MOLT/MOD09GA.005/2004.01.01/index.html since it should be rejected.
--2013-06-14 13:09:20-- http://e4ftl01.cr.usgs.gov/MOLT/MOD09GA.005/2004.01.02/
[...]
如果我忽略该-A
选项,则只index.html
会将文件下载到我的系统中,但似乎未对其进行解析并且未遵循链接。我真的不知道要完成这项工作还需要什么,因为我不明白为什么不这样做!!!
解决方案
最后,问题是由于本地版本的 wget 中的一个旧错误。但是,我最终编写了自己的脚本来从上面的服务器下载 MODIS 数据。该脚本是纯 Python,可从此处获得。