0

我正在创建一个解析不同网站的 Web 应用程序,例如,如果您在应用程序上搜索“stackoverflow”,我们将搜索多个网站、google、yahoo、bing、stackoverflow 等。为了解决我需要使用我决定通过 HTML 解析的每个网站的 api,到目前为止它工作正常。但是我确实知道,如果像谷歌这样的网站从同一个 IP 地址收到几个异常快速的请求,他们只会阻止该 IP,所以我想做的是使用用户 IP 并将其以数据包的形式发送到像谷歌这样的应用程序认为用户发起了请求。我想到了几种方法,例如:让javascript发起请求,然后发回html,但是看到我已经用 ruby​​ 编写了解析器,我真的觉得这两个单独的调用不会那么有效。因此,如果有人对如何通过 ip 欺骗或其他 hack 来实现这一点有任何想法,我将永远感激不尽。谢谢

4

1 回答 1

0

您可以使用代理服务器银行,但成本很高。

就个人而言,我会使用 API,因为我知道我正在按照批准的方式做事,而不用担心试图绕过他们的会话嗅探算法。

您正在采取可能比使用他们的 API 更慢的“捷径”,尤其是当您考虑到重写代码所花费的时间时。试图处理 HTML 抓取是一场持续的战斗,因为他们都会改变他们的 HTML 布局,破坏你的抓取器。如果有的话,他们的 API 会更慢更频繁地改变,所以你的代码会嗡嗡作响。

于 2013-04-17T15:43:15.843 回答