0

我是网络抓取的初学者,并试图学习如何实施自动化过程来从网络提交搜索词中收集数据。

我正在处理的具体问题如下:

鉴于 stackoverflow 网页https://stackoverflow.com/我提交了对“网络抓取”一词的搜索,并希望在列表中收集所有问题链接和每个问题的内容。

是否有可能刮掉这些结果?

我的计划是创建一个术语列表:

term <- c(“web scraping”, “crawler”, “web spider”)

提交每个学期的研究并收集问题标题和问题内容。

当然,应该对每一页结果重复该过程。

不幸的是,对于网络抓取来说相对较新,我不知道该怎么做。我已经下载了一些包来抓取网络(rvest、RCurl、XML、RCrawler)。

谢谢你的帮助

4

0 回答 0