1

可能重复:
如何在 python 中下载文件

我正在玩 Python 做一些爬行的东西。我知道有urllib.urlopen("http://XXXX")这可以帮助我获取目标网站的 html。但是,该网页中指向原始图像的链接通常会使备份页面中的图像不可用。我想知道有没有办法也可以将图像保存在本地空间中,然后我们可以在没有互联网连接的情况下阅读网站上的全部内容。这就像备份整个网页,但我不确定在 Python 中有什么方法可以做到这一点。此外,如果它可以摆脱广告的东西,那就更棒了。谢谢。

4

1 回答 1

1

如果您正在寻找备份单个网页,那么您就在路上了。

既然你提到了抓取,如果你想备份整个网站,你需要做一些真正的抓取,你需要scrapy

有几种方法可以从互联网上下载文件,看看这些问题:

  1. Python 文件下载
  2. 如何在python中下载文件
  3. 使用python从http自动下载文件

希望这可以帮助

于 2012-09-30T20:16:57.013 回答