2

我正在尝试将来自 Google 搜索结果 rss/xml 提要的结果导入我的网站,但每次运行 python 脚本时,我都会收到来自 Google 的消息:

我们的系统检测到来自您的计算机网络的异常流量。此页面检查是否真的是您发送请求而不是机器人。

该脚本使用 urllib 下载页面并与其他 rss 提要一起使用。

真的没有意义,因为我认为 rss 提要应该由软件(机器人)使用,我在周末离开脚本并在周一早上运行,但仍然收到消息,所以我不会过多地访问他们的服务器。

我可以在浏览器中加载提要,也可以在服务器上使用 wget 下载提要?

4

1 回答 1

3

您可以使用一些 HTTP 嗅探器(如 fiddler)或任何协议嗅探器(tcpdump、wireshark)来嗅探您到 Google 的网络流量,并检查您的 urllib 请求和 wget/浏览器请求是否不同。还要检查和比较两个请求的所有 cookie 和 HTTP 标头。请记住,对于向 Google 发出大量请求的 IP - google 每 N 个请求发送验证码,因此如果您需要解析它的内容 - 您可能需要使用一些代理进行 Google 解析。

于 2013-03-18T13:53:46.930 回答