r - Rcrawler 不会收集所有页面

翻译自：https://stackoverflow.com/questions/58324435 2019-10-10T13:44:49.953

50 次

我想抓取网站。收集有关不同播客的信息。我对节目的标题、日期和摘要感兴趣。我的结果很混乱，而且有很多空白。

我尝试了多个网站。有些正在工作，但大多数都没有。我还在 ExtractCSSPath 和 ExtractXPath 参数之间切换。

Rcrawler(Website = "https://www.futuretechpodcast.com/all-podcasts/", no_cores = 4, no_conn = 4, ExtractCSSPat = c(".podcast-hero-title", ".podcast-hero-date",".content_text" ), 
PatternsNames = c("Title","Date", "Content"), MaxDepth = 1)

生成的 excel 表包含我想要的一些信息，但大多数行都是空的。此外，仅显示第一页的信息。对于其他网站，此代码是成功的。

Rcrawler 是正确的软件包吗？

我想获得一个完整的 Excel 文件，包括所有日期、标题和摘要。

r - Rcrawler 不会收集所有页面

0 回答 0

Related

Reference