0

我想比较来自不同国家的新闻文章以了解特定关键字的使用情况。

我的想法是使用 RCrawler 抓取 Google 新闻:

RCrawler(website = “https://news.google.com/topics/CAAqIggKIhxDQkFTRHdvSkwyMHZNREZqY0hsNUVnSmtaU2dBUAE?hl=de&gl=DE&ceid=DE%3Ade”, MaxDepth = 5, Keywordfilter = c(“Keyword”), KeywordAccuracy = 99)

然后只计算我得到的结果。我不确定这是否是最好的方法,或者它是否正确,但我是 R 的新手,它是我目前能想到的最好的方法。

4

1 回答 1

1

由于您使用的是 Google 新闻,而不是以这种方式抓取,更简单的方法是访问该特定关键字的 RSS 提要并将其拉入数据框。幸运的是{tidyRSS},您可以使用该软件包来执行此操作。

提要的示例如下所示:

https://news.google.com/rss/search?q=apple&hl=en-IN&gl=IN&ceid=IN:en

在此处了解如何自定义此 URL 。如果您愿意,可以按地理位置搜索。

安装后tidyRSS,您可以像这样实现它:

library(tidyRSS)

# I will search for the keyword Apple

keyword <- "https://news.google.com/rss/search?q=apple&hl=en-IN&gl=IN&ceid=IN:en"
# From the package vignette

google_news <- tidyfeed(
  keyword,
  clean_tags = TRUE,
  parse_dates = TRUE
)

这为您提供了一个数据框,其中包含许多描述每篇文章的变量。您可以选择保留哪些。

于 2021-01-01T13:47:29.297 回答