问题标签 [rcrawler]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
224 浏览

r - 使用 Rvest 搜索 Google 新闻获取关键字

我想比较来自不同国家的新闻文章以了解特定关键字的使用情况。

我的想法是使用 RCrawler 抓取 Google 新闻:

RCrawler(website = “https://news.google.com/topics/CAAqIggKIhxDQkFTRHdvSkwyMHZNREZqY0hsNUVnSmtaU2dBUAE?hl=de&gl=DE&ceid=DE%3Ade”, MaxDepth = 5, Keywordfilter = c(“Keyword”), KeywordAccuracy = 99)

然后只计算我得到的结果。我不确定这是否是最好的方法,或者它是否正确,但我是 R 的新手,它是我目前能想到的最好的方法。

0 投票
1 回答
47 浏览

r - 网络爬虫并使用 R 以 txt 格式保存

我想txt从这个链接中收集诗歌并保存,这里有一些提示:

  1. 用诗人的名字创建文件夹,
  2. 将红圈内的诗歌一一点击保存为txt格式的诗歌,
  3. 文件名应该是带有扩展名的诗歌标题txt

在此处输入图像描述

我是 R 网络爬虫的新手,有人可以帮忙吗?我会感谢您的建议或帮助。

代码:

出去:

0 投票
0 回答
22 浏览

r - 使用 RCrawler 仅拉取带有表格的页面

我正在尝试使用 Rcrawler 从网站中提取信息,但我正在获取大量信息。老实说,我只关心上面有表格的页面。是否可以编写一个只拉取包含表格的页面的代码?

0 投票
0 回答
33 浏览

r - 如何让 Rcrawler 绕过网站延迟?

一些网站出于安全原因这样做(我假设):

在访问 website.com 之前检查您的浏览器。

这个过程是自动的。您的浏览器将很快重定向到您请求的内容。

请允许最多 5 秒...

有没有办法使用 RCrawler 绕过这个?RenderDelay 或 TimeOut 似乎都不适合我。我使用 PhantomJS。

0 投票
1 回答
36 浏览

r - 使用rvest循环页面和爬虫excel文件路径

对于此链接中的条目,我需要单击每个条目,然后单击页面左下方的 excel 文件路径的爬虫 url:

在此处输入图像描述

我如何使用 R 中的 web scrapy 包来实现这一点,例如rvest等?提前真诚感谢。

首先,我的问题是如何正确设置html_nodes以获取每个网页的 url?

在此处输入图像描述

更新:

当我运行时remDr$navigate(url)

0 投票
0 回答
8 浏览

r - 使用 RCrawler 抓取页面包含任何表

我尝试抓取包含网站中任何表格的页面。但我无法弄清楚,几乎没有涉及表的来源。请帮忙。谢谢。我不需要表格的内容,只需要网页。