2

我认为这个问题之前已经在这里得到了回答,但我找不到所需的主题。我是网络抓取的新手。我必须开发一个脚本,将所有谷歌搜索结果用于特定名称。然后它会抓取与该名称相关的数据,如果发现多个,数据将根据其名称进行分组。

我所知道的是,谷歌对抓取有某种限制。他们提供了一个自定义搜索 api。我仍然没有使用该 api,但希望从该 api 中获取与查询相对应的所有结果链接。但是,无法理解从该链接中抓取信息的理想过程是什么。非常感谢任何教程链接或建议。

4

1 回答 1

1

你应该提供更多你一直在做的事情,听起来你甚至没有尝试自己解决它。

无论如何,如果您仍在使用它:

您可以通过两种方式抓取Google,一种是允许的,一种是不允许的。
a) 使用他们的 API,您每天可以获得大约 2k 个结果。
您可以以 2000 美元/年的价格将其提高到每天 3k 左右。您可以通过直接与他们联系来提高它。
如果您只需要较少数量的请求并且主要对根据选择的关键字获取一些网站感兴趣,则您将无法通过此方法获得准确的排名位置。
起点在这里:https ://code.google.com/apis/console/

b) 您可以抓取真实的搜索结果
这是获得真实排名位置的唯一方法,用于 SEO 目的或跟踪网站位置。如果做得对,它还可以得到大量的结果。
你可以谷歌搜索代码,我知道的最高级的免费 (PHP) 代码在http://scraping.compunect.com
但是,还有其他项目和代码片段。
您可以从每天 300-500 个请求开始,这可以乘以多个 IP。如果您想走那条路线,请查看链接的文章,它解释得更详细并且非常准确。

也就是说,如果您选择路线 b),则您违反了 Google 的条款,因此要么不接受它们,要么确保您未被检测到。如果 Google 检测到您,您的脚本将被 IP/验证码禁止。不被发现应该是一个优先事项。

于 2014-03-28T14:51:45.170 回答