问题标签 [rcrawler]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

26 问题

0 投票

1 回答

224 浏览

r - 使用 Rvest 搜索 Google 新闻获取关键字

我想比较来自不同国家的新闻文章以了解特定关键字的使用情况。

我的想法是使用 RCrawler 抓取 Google 新闻：

RCrawler(website = “https://news.google.com/topics/CAAqIggKIhxDQkFTRHdvSkwyMHZNREZqY0hsNUVnSmtaU2dBUAE?hl=de&gl=DE&ceid=DE%3Ade”, MaxDepth = 5, Keywordfilter = c(“Keyword”), KeywordAccuracy = 99)

然后只计算我得到的结果。我不确定这是否是最好的方法，或者它是否正确，但我是 R 的新手，它是我目前能想到的最好的方法。

r rvest rcrawler

2020-12-31T11:34:41.143

0 投票

1 回答

47 浏览

r - 网络爬虫并使用 R 以 txt 格式保存

我想txt从这个链接中收集诗歌并保存，这里有一些提示：

用诗人的名字创建文件夹，
将红圈内的诗歌一一点击保存为txt格式的诗歌，
文件名应该是带有扩展名的诗歌标题txt。

我是 R 网络爬虫的新手，有人可以帮忙吗？我会感谢您的建议或帮助。

代码：

出去：

r web-scraping web-crawler rcrawler

2021-01-08T12:04:20.087

0 投票

0 回答

22 浏览

r - 使用 RCrawler 仅拉取带有表格的页面

我正在尝试使用 Rcrawler 从网站中提取信息，但我正在获取大量信息。老实说，我只关心上面有表格的页面。是否可以编写一个只拉取包含表格的页面的代码？

r rcrawler

2021-03-10T22:22:42.787

0 投票

0 回答

33 浏览

r - 如何让 Rcrawler 绕过网站延迟？

一些网站出于安全原因这样做（我假设）：

在访问 website.com 之前检查您的浏览器。

这个过程是自动的。您的浏览器将很快重定向到您请求的内容。

请允许最多 5 秒...

有没有办法使用 RCrawler 绕过这个？RenderDelay 或 TimeOut 似乎都不适合我。我使用 PhantomJS。

r web-scraping rcrawler

2021-06-16T23:33:06.190

0 投票

1 回答

36 浏览

r - 使用rvest循环页面和爬虫excel文件路径

对于此链接中的条目，我需要单击每个条目，然后单击页面左下方的 excel 文件路径的爬虫 url：

我如何使用 R 中的 web scrapy 包来实现这一点，例如rvest等？提前真诚感谢。

首先，我的问题是如何正确设置html_nodes以获取每个网页的 url？

更新：

当我运行时remDr$navigate(url)：

r web-crawler rvest rcrawler

2022-01-11T06:05:02.380

0 投票

0 回答

8 浏览

r - 使用 RCrawler 抓取页面包含任何表

我尝试抓取包含网站中任何表格的页面。但我无法弄清楚，几乎没有涉及表的来源。请帮忙。谢谢。我不需要表格的内容，只需要网页。

r rcrawler

2022-03-06T02:10:47.860

1 2 3 4 5 6 7 8 9 10