0

我正在尝试使用 urllib2 从网页中获取数据。该页面在浏览器上可见,但通过脚本我不断收到 HTTPError: HTTP Error 403: Forbidden

我还尝试通过更改用户代理字符串来模仿浏览器请求,但没有成功。

对此有什么想法吗?

4

3 回答 3

2

我尝试使用篡改数据和 Firefox 仅发送用户代理,我得到 403。尝试添加其他标头:

Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: en-us,en;q=0.5
Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7
Keep-Alive: 115
Connection: keep-alive

我试过了,这应该可以。

于 2010-12-28T13:19:46.043 回答
1

该网站正在检查您User-Agent刚刚将其设置为Internet Explorer

request.add_header('User-Agent', 'Internet Explorer')

我确认这适用于wget,除非您将用户代理设置为 Internet Explorer,否则您会得到 403。

于 2010-12-28T12:49:21.487 回答
0

:) 我也想从 NSE 获得报价!像 pythonFoo 说你需要额外的标题。但是只有接受就足够了。用户代理可以说 python(保持真实!)

于 2010-12-31T14:32:57.253 回答