我正在尝试从网站下载 PDF 文件,我知道文件的名称,例如foo.pdf,但它的位置每隔几周就会更改:
例如 www.server.com/media/123456/foo.pdf 更改为 www.server.com/media/245415/foo.pdf
这个数字总是一个六位数的数字,所以我尝试使用 bash 脚本遍历所有 1000 万个,但这显然需要很多时间:
i=0
until [ "$RC" == "0" ] || [ $i == 1000000 ]
do
b=$(printf %06d $i)
wget -q http://www.server.com/media/${b}/foo.pdf -O bar.pdf
export RC=$?
i=$(($i + 1))
done
对于错误的地址,我只会收到 404 错误。
我围绕当前正确的地址对其进行了测试,并且可以正常工作。
有谁知道更快的方法来解决这个问题?