1

我正在尝试从网站下载 PDF 文件,我知道文件的名称,例如foo.pdf,但它的位置每隔几周就会更改:

例如 www.server.com/media/123456/foo.pdf 更改为 www.server.com/media/245415/foo.pdf

这个数字总是一个六位数的数字,所以我尝试使用 bash 脚本遍历所有 1000 万个,但这显然需要很多时间:

i=0
until [ "$RC" == "0" ] || [ $i == 1000000 ]
do
  b=$(printf %06d $i)
  wget -q http://www.server.com/media/${b}/foo.pdf -O bar.pdf
  export RC=$?
  i=$(($i + 1))
done

对于错误的地址,我只会收到 404 错误。
我围绕当前正确的地址对其进行了测试,并且可以正常工作。

有谁知道更快的方法来解决这个问题?

4

2 回答 2

2

如果该页面链接到其他任何地方,那么您可以从那里获取链接,然后获取文件。如果不是,您可能不走运。

请注意,大多数服务器会考虑尝试攻击网络服务器 1,000,000 次滥用,并且会禁止您的 IP 甚至尝试。

于 2012-09-09T03:27:18.067 回答
0

不时遵循这些值,并确定它们是否符合算法。不过,正如 zigdon 上面所说,如果您有链接的来源,请先获取它,然后点击 PDF 的链接。

于 2012-09-09T03:29:39.017 回答