我是网络抓取的初学者,并试图学习如何实施自动化过程来从网络提交搜索词中收集数据。
我正在处理的具体问题如下:
鉴于 stackoverflow 网页https://stackoverflow.com/我提交了对“网络抓取”一词的搜索,并希望在列表中收集所有问题链接和每个问题的内容。
是否有可能刮掉这些结果?
我的计划是创建一个术语列表:
term <- c(“web scraping”, “crawler”, “web spider”)
提交每个学期的研究并收集问题标题和问题内容。
当然,应该对每一页结果重复该过程。
不幸的是,对于网络抓取来说相对较新,我不知道该怎么做。我已经下载了一些包来抓取网络(rvest、RCurl、XML、RCrawler)。
谢谢你的帮助