2

我已经使用 rcurl 进行简单的文本检索和简单的抓取,但我对谷歌的趋势感到困惑。让我们以奥巴马和罗姆尼为例。如果您附加“&export=1”,谷歌趋势会返回一个页面,显示图表的基础数据。

http://www.google.com/trends/explore?q=obama%2C+romney#q=obama%2C%20romney&export=1

在该页面上,数据位于 reportContent div 中,您可以通过检查以下元素来检查:

<div id="reportContent" class="report-content"> </div>

更具体地说,它隐藏在与该 div 关联的 innerHTML 和 innertext 属性中。我以前从未见过这种情况,我想知道如何使用 rcurl 访问该数据。我也很好奇,如果有人碰巧知道,为什么谷歌不只是以简单的 html 呈现数据。我承认我不是很博学;我正在尽可能多地阅读它,但是我发现的关于 innertext 属性的内容(不多)对于修改我的 rcurl 脚本并不是特别有启发性或帮助。

4

1 回答 1

0

You have to login google in order to get multiple trends data, otherwise, it is easy for you to be blocked by google. Google may consider several factors when blocking you, e.g. IP address/ google accounts/device type / machine or human.

I provide a online google trends scraping service on http://www.datadriver.info/scrapdata/?case_task_id=b333f048be31cad3922f1c8c919700f860f5adbe, Using this service, you won't encounter the boring problem "You have reached your quota limit. Please try again later."

于 2014-12-03T03:27:38.300 回答