问题标签 [rcrawler]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2671 浏览

python - 用 BeautifulSoup 爬行深度

beautifulsoup 包中是否有允许用户在站点内设置爬取深度的功能?我对 Python 比较陌生,但我之前在 R 中使用过 Rcrawler,并且 Rcrawler 提供了“MaxDepth”,因此爬虫将进入该域内主页的一定数量的链接。

我当前使用 Python 编写的脚本的基础知识会解析页面上的所有可见文本,但我想设置一个爬行深度。

任何见解或方向表示赞赏。

0 投票
2 回答
723 浏览

r - 我们如何使用 R 中的 Rcrawler 从子域中提取信息?

我想使用主 URL 从子域中提取网页内容。

我尝试使用 Rcrawler

运行此代码后,我得到了 INDEX 默认变量,我们可以看到网站的所有 URL。有一个 URL "" http://xbyte-technolabs.com/contact_us.php " 我想从中提取联系方式。

现在有人可以指导我如何使用 R 中的 Rcrawler从主 URL“ http://xbyte-technolabs.com/ ”转到这个特定的 URL。

0 投票
1 回答
1943 浏览

r - 使用动态/多个 URL 抓取 R 数据

我尝试从以下网址获取瑞士联邦最高法院的所有法令:https ://www.bger.ch/ext/eurospider/live/de/php/aza/http/index.php?lang=de&type=simple_query&query_words= &lang=de&top_subcollection_aza=all&from_date=&to_date=&x=12&y=12 不幸的是,没有提供 API。我要检索的数据的 CSS 选择器是.para

我知道http://relevancy.bger.ch/robots.txt

对我来说,我正在查看的 URL 似乎允许抓取,对吗?不管怎样,联邦法院解释说,这些规则是针对大型搜索引擎的,个人爬取是可以容忍的。

我可以检索单个法令的数据(使用https://www.analyticsvidhya.com/blog/2017/03/beginners-guide-on-web-scraping-in-r-using-rvest-with-hands-on -知识/

但是,由于 rvest 仅从一个特定页面中提取数据并且我的数据位于多个页面上,因此我尝试使用 Rcrawler 这样做(https://github.com/salimk/Rcrawler),但我不知道如何爬取给定站点www.bger.ch上的结构以获取所有带有法令的 URL。

我查看了以下帖子,但仍然找不到解决方案:

跨多个页面的 R 网页抓取

Rvest:抓取多个 URL

0 投票
1 回答
206 浏览

json - R:如何使用 Rcrawler 包并行进行 JSON 解析?

我刚刚遇到了这个强大的 R 包,但不幸的是,我无法找到如何并行解析响应为 JSON 的 url 列表。

作为一个简单的例子,假设我有一个城市列表(在瑞士):

在下一步中,我想为每个列出的城市找到前往苏黎世市的公共交通连接。我可以使用以下传输 api 来查询公共时间表数据:

使用 httr 包,我可以为每个城市发出如下请求:

获得个人旅程的持续时间。但是,我有更长的列表和更多的目的地。这就是为什么我正在寻找一种方法来并行发出多个请求。

0 投票
1 回答
910 浏览

r - Rcrawler 包:Rcrawler 不抓取某些网站

我正在使用 Rcrawler 来抓取网址向量。对于他们中的大多数人来说,它运行良好,但时不时地,他们中的一个并没有被抓取。起初,我只是在 https:// 网站上注意到这一点,此处已解决。但我使用的是 0.1.7 版本,它应该具有 https:// 功能。

我还发现这个其他用户也有同样的问题,但也有 http:// 链接。我检查了我的实例,他的网站也没有为我正确抓取。

这是我尝试爬取这些网站之一时得到的结果:

有什么想法吗?还在等待创作者的回复。

0 投票
1 回答
530 浏览

r - 使用 R 的网络爬虫

我想使用R程序为网站“ https://www.latlong.net/convert-address-to-lat-long.html ”构建一个网络爬虫,它可以使用地址参数访问该网站,然后获取生成的从站点的纬度和经度。这将重复我拥有的数据集的长度。

由于我是网络爬虫领域的新手,因此我会寻求指导。

提前致谢。

0 投票
2 回答
305 浏览

r - 如何使我的爬虫(用 R 制造)自动?

我一直在使用 RStudio 来抓取一些网站。我希望能够在白天的特定实例中自动运行我的代码。我一直在使用 Rcrawler 和 Rvest 进行爬行。

重点是在一天中的不同时间使用不同的关键字从多个站点进行新闻聚合。我正在尝试自动化运行特定脚本的过程。

有没有办法在 R 中这样做,或者我应该转向 Python 吗?我在 Windows 上使用 Rstudio。

0 投票
1 回答
1053 浏览

r - Rcrawler - 如何爬取受帐户/密码保护的网站?

我正在尝试抓取和抓取网站的表格。我有一个网站帐户,我发现 Rcrawl 可以帮助我根据特定关键字等获取表格的部分内容。问题是在 GitHub 页面上没有提及如何使用帐户抓取网站/密码保护。

登录示例如下:

你知道Rcrawler是否有这个功能吗?例如:

我确信我上面的代码是错误的,但我希望它能让您了解我想要做什么。

0 投票
1 回答
743 浏览

r - 如何通过使用 rvest 自动点击“加载更多”来抓取所有数据

rvest用来在网页上抓取一些感兴趣的信息的网站。一个示例页面是这样的https://www.edsurge.com/product-reviews/mr-elmer-product/educator-reviews,我写了一个这样的函数:

我用它把结果放入数据框中:

但我遇到的问题是,由于有 100 多条用户评论,网页只会显示 30 条用户评论。更具挑战性的是,点击页面底部的“加载更多”后,url 不会改变,因此基本上没有第二、第三……页面可以抓取。谁能提供有关如何解决此问题的建议,以便我可以通过运行我创建的功能来抓取所有评论数据,好吗?

0 投票
2 回答
814 浏览

r - Rcrawler scrape does not yield pages

I'm using Rcrawler to extract the infobox of Wikipedia pages. I have a list of musicians and I'd like to extract their name, DOB, date of death, instruments, labels, etc. Then I'd like to create a dataframe of all artists in the list as rows and the data stored as columns/vectors.

The code below throws no errors but I don't get any results either. The xpath used in the code is effective when I use rvest on its own.

What is wrong with my code?