python - 如何避免机器人检测？

Question

我正在使用 python+mechanize，试图抓取一个网站。如果我使用链接访问此站点，则会出现登录页面的纯文本版本。这就是我想用我的刮刀看到的。所以：

import mechanize

USER_AGENT = "Links (2.3pre1; Linux 2.6.32-5-xen-amd64 x86_64; 80x24)"
mech = mechanize.Browser(factory=mechanize.RobustFactory())
mech.addheaders = [('User-agent', USER_AGENT)]
mech.set_handle_robots(False)

resp = mech.open(URLS['start'])
fnout("001-login.html", resp.read())
resp.close()

fnout只是将字符串转储到文件中。然而，当我打开时001-login.html，整个页面都是“机器人”这个词。没有其他的。

我没有提出任何其他要求。这不像我加载了页面并且没有加载图像，或者其他什么。这是我提出的第一个请求，我将 User-Agent 与网站使用的链接版本完全相同。我做错了什么（除了试图抓取一个不想被抓取的网站之外）？

score 7 · Accepted Answer

可能还有其他标头links正在发送 Mechanize 不是，反之亦然。使用两者和Mechanize访问 http://www.reliply.org/tools/requestheaders.phplinks并查看正在发送的标头。

python - 如何避免机器人检测？

1 回答 1

Related

Reference