我注意到我们在这里没有太多关于 Rcrawler 的问题,我认为它是一个很好的网站抓取工具。但是,我在告诉它抓取多个网站时遇到问题,因为它目前只能执行 3 个。请让我知道是否有人有此问题的经验。谢谢。
我已经尝试将所有 URL 放在一个列表/向量中,但它仍然没有这样做。这是我获取网站标题、描述和关键字的抓取代码。
Rcrawler(Website = c("http://www.amazon.com", "www.yahoo.com", "www.wsj.com"),
no_cores = 3, no_conn = 3, MaxDepth = 0,
ExtractXpathPat = c('/html/head/title', '//meta[@name="description"]/@content', '//meta[@name="keywords"]/@content'),
PatternsName = c("Title", "Description", "Keywords"), saveOnDisk = FALSE)
如果我有 3 个以上的网站,它会给我这个错误:
Error in Rcrawler(Website = c("http://www.amazon.com", "www.yahoo.com", :
object 'getNewM' not found