r - 如何使用 R 进行网页抓取

问问题 2018-04-13T18:02:33.957

220 次

我是网络抓取的初学者，并试图学习如何实施自动化过程来从网络提交搜索词中收集数据。

我正在处理的具体问题如下：

鉴于 stackoverflow 网页https://stackoverflow.com/我提交了对“网络抓取”一词的搜索，并希望在列表中收集所有问题链接和每个问题的内容。

是否有可能刮掉这些结果？

我的计划是创建一个术语列表：

term <- c(“web scraping”, “crawler”, “web spider”)

提交每个学期的研究并收集问题标题和问题内容。

当然，应该对每一页结果重复该过程。

不幸的是，对于网络抓取来说相对较新，我不知道该怎么做。我已经下载了一些包来抓取网络（rvest、RCurl、XML、RCrawler）。

谢谢你的帮助

0 回答 0