r - 使用 Rvest 搜索 Google 新闻获取关键字

Question

我想比较来自不同国家的新闻文章以了解特定关键字的使用情况。

我的想法是使用 RCrawler 抓取 Google 新闻：

RCrawler(website = “https://news.google.com/topics/CAAqIggKIhxDQkFTRHdvSkwyMHZNREZqY0hsNUVnSmtaU2dBUAE?hl=de&gl=DE&ceid=DE%3Ade”, MaxDepth = 5, Keywordfilter = c(“Keyword”), KeywordAccuracy = 99)

然后只计算我得到的结果。我不确定这是否是最好的方法，或者它是否正确，但我是 R 的新手，它是我目前能想到的最好的方法。

score 1 · Accepted Answer

由于您使用的是 Google 新闻，而不是以这种方式抓取，更简单的方法是访问该特定关键字的 RSS 提要并将其拉入数据框。幸运的是{tidyRSS}，您可以使用该软件包来执行此操作。

提要的示例如下所示：

https://news.google.com/rss/search?q=apple&hl=en-IN&gl=IN&ceid=IN:en

在此处了解如何自定义此 URL 。如果您愿意，可以按地理位置搜索。

安装后tidyRSS，您可以像这样实现它：

library(tidyRSS)

# I will search for the keyword Apple

keyword <- "https://news.google.com/rss/search?q=apple&hl=en-IN&gl=IN&ceid=IN:en"
# From the package vignette

google_news <- tidyfeed(
  keyword,
  clean_tags = TRUE,
  parse_dates = TRUE
)

这为您提供了一个数据框，其中包含许多描述每篇文章的变量。您可以选择保留哪些。

r - 使用 Rvest 搜索 Google 新闻获取关键字

1 回答 1

Related

Reference