0

我正在尝试从互联网上下载网页。我能够窃取 HTML(使用 URLlib),但我无法正确下载图像。不过,已经有一个问题了。我的问题是,有什么方法可以使用 python 绕过防火墙来访问“被阻止”的网页?

理想情况下,它会使用一些晦涩的代码或模块,但如果不可能,有人可以告诉我使用不同方法(如代理)的好解决方法吗?

4

1 回答 1

1

如果要从 HTML 页面中提取图像,则需要使用re模块对其进行解析

import re

使用正则表达式仅提取img src标签。您还可以使用已经编写的解析器。例如 BeautifulSoup > http://www.crummy.com/software/BeautifulSoup/

防火墙是计算机网络外围防御的被动组件,它也可以作为网络的两个或多个部分之间的接触点,确保网络本身的安全性。所以你必须直接在网络中工作,而不是通过代码语言。

于 2012-11-27T22:16:16.670 回答