1

一段时间以来,我们一直在使用https://github.com/PMassicotte/gtrendsR按关键字提取 Google 趋势数据。

我们通常的方法是启动几个不同的盒子,发出一些请求,杀死这些盒子,然后启动其他盒子。我们每周这样做一次。
我们这样做是为了遵守谷歌的配额/限制。

我们这样做了大约 6 个多月,但本周它已经停止工作。我们使用的任何盒子(即使使用不同的 IP)都会返回“HTTP 429 Too Many Requests”。

我们所有的盒子都在我们的 AWS 账户中启动。如果他们来自同一个“地方”,谷歌(或任何人)是否能够阻止不同的 IP?这就是我认为正在发生的事情,但我并不完全明白。

我正在尝试学习/了解互联网的这一方面是如何工作的,如果是这样的话,那很好。这意味着我们已经达到了将所有抓取框保存在同一个 AWS 云中的限制。

我们在使用 gtrendsR 包时遇到的错误是:

Error in get_widget(comparison_item, category, gprop, hl, cookie_url,  :
  widget$status_code == 200 is not TRUE

围绕这个有很多讨论,过去 4 年多来人们做了不同的事情来处理它。在大多数情况下,它通常是:更改 IP。

4

0 回答 0