我正在使用 Rcrawler 来抓取网址向量。对于他们中的大多数人来说,它运行良好,但时不时地,他们中的一个并没有被抓取。起初,我只是在 https:// 网站上注意到这一点,此处已解决。但我使用的是 0.1.7 版本,它应该具有 https:// 功能。
我还发现这个其他用户也有同样的问题,但也有 http:// 链接。我检查了我的实例,他的网站也没有为我正确抓取。
这是我尝试爬取这些网站之一时得到的结果:
>library(Rcrawler)
>Rcrawler("https://manager.submittable.com/beta/discover/?page=1&sort=")
>In process : 1..
Progress: 100.00 % : 1 parssed from 1 | Collected pages: 1 |
Level: 1
+ Check INDEX dataframe variable to see crawling details
+ Collected web pages are stored in Project folder
+ Project folder name : manager.submittable.com-191922
+ Project folder path : /home/anna/Documents/Rstudio/Submittable/manager.submittable.com-191922
有什么想法吗?还在等待创作者的回复。