1

我想抓取网站。收集有关不同播客的信息。我对节目的标题、日期和摘要感兴趣。我的结果很混乱,而且有很多空白。

我尝试了多个网站。有些正在工作,但大多数都没有。我还在 ExtractCSSPath 和 ExtractXPath 参数之间切换。

Rcrawler(Website = "https://www.futuretechpodcast.com/all-podcasts/", no_cores = 4, no_conn = 4, ExtractCSSPat = c(".podcast-hero-title", ".podcast-hero-date",".content_text" ), 
PatternsNames = c("Title","Date", "Content"), MaxDepth = 1)

生成的 excel 表包含我想要的一些信息,但大多数行都是空的。此外,仅显示第一页的信息。对于其他网站,此代码是成功的。

Rcrawler 是正确的软件包吗?

我想获得一个完整的 Excel 文件,包括所有日期、标题和摘要。

4

0 回答 0