1

我正在“工作”一个数据挖掘项目,我选择解析谷歌搜索结果。现在,在我真正开始之前,我想咨询一下你们——有经验的人。我对 Google 如何提供结果进行了一些研究,并分析了结果页面的结构。没关系,我已经弄清楚了我将使用的正则表达式和数据结构。

在这期间我遇到了他们的验证码,因为我搜索得太快了;哦,讽刺。我还发现他们实际上将结果限制为 1000。现在,有什么办法可以避免这些问题,可能会减慢url获取速度以解决第一个问题,或者在遇到CAPTCHA时报告以等待我的输入;那可能会做到,但是另一个呢?Google 是否提供了某种 API,我可以使用它来解决问题?我在他们的代码上找不到。* 页面。

4

2 回答 2

9

有一个自定义搜索 API

它以 json 或 XML 返回结果,因此您甚至不需要使用正则表达式。但是,您确实需要为每天 100 次以上的搜索付费。

你到底想做什么?也许有更好的方法来完成它。

于 2011-03-30T07:14:21.210 回答
4

总是先看CPAN!

https://metacpan.org/pod/REST::Google

如果有人还没有解决你的问题,那很可能是一个奇怪的问题:-)

于 2011-03-30T10:29:42.613 回答