python - 为什么 mechanize 会抛出 HTTP 403 错误？

Question

出于某种原因，HTTP Error 403: Forbidden当我尝试打开页面时，我得到了一个http://questionablecontent.net。我曾经得到一个robots.txt错误，但已经解决了。此外，我什至找不到他们的 robots.txt 文件。

我仍然可以从 chrome 浏览网页，所以我想知道的是：即使在设置了适当的标题后，mechanize 看起来是否与 chrome 不同？

这是我的代码（不起作用）：

br = mechanize.Browser()
cj = cookielib.LWPCookieJar()
br.set_cookiejar(cj)
br.set_handle_equiv(True)
br.set_handle_redirect(True)
br.set_handle_robots(False)
br.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(), max_time=1)
br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]

我还尝试将 addheaders 设置为与我的浏览器相同的标题（我在此处找到）：

br.addheaders = [('User-agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.72 Safari/537.36')]

...但这也不起作用。

最后，我尝试使用 Selenium 并且效果很好，看到它在 chrome 中加载页面，然后与 Python 通信。但是，我仍然想让它与机械化一起工作。此外，我仍然不确定 chrome 和 mechanize 与他们的服务器有何不同。

score 4 · Accepted Answer

诀窍可能在于 selenium 发送的请求标头，除了用户代理标头之外，一些服务器还会检查其他标头以确保真正的浏览器正在与它们对话。看看我的一个旧答案：

urllib2.HTTPError：HTTP 错误 403：禁止

在您的位置，我会尝试添加您真正的 chrome 浏览器发送的所有标题，然后消除不必要的标题。

python - 为什么 mechanize 会抛出 HTTP 403 错误？

1 回答 1

Related

Reference