问题标签 [rvest]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
154 浏览

r - Scraping data off site using 4 urls for one day using R

I am trying to scrape all the historical Air Pollution Index data from the Malaysian Department of Environment site that has the data split for all the stations into 4 hourly links per/day as below

http://apims.doe.gov.my/apims/hourly1.php?date=20130701 http://apims.doe.gov.my/apims/hourly2.php?date=20130701

Same as above with 'hourly3.php?' and 'hourly4.php?'

I am only a bit familiar with R so what would be the easiest way to do this using maybe the XML or scrapeR library?

0 投票
2 回答
4580 浏览

r - 通过循环 rvest::follow_link() 函数来抓取链接的 HTML 网页

如何循环该rvest::follow_link()功能以抓取链接的网页?

用例:

  1. 识别所有乐高电影演员
  2. 关注所有乐高电影演员链接
  3. 为所有演员获取每部电影(+ 年)的表格

我需要的所需选择器如下:

期望的输出:

0 投票
1 回答
3201 浏览

r - 从 url 列表中获取 (rvest) 多个 HTML 页面

我有一个看起来像这样的数据框:

使用rvest我想抓取每个 url的目录并将它们绑定到一个输出。

此代码提取一个 url 的目录:

期望的输出:

0 投票
1 回答
784 浏览

html - 在 R 的 rvest 包中的 html 函数中使用哪个选择器?

我想解析包含此类信息的 HTML 页面:

我在 R 中使用rvest 。当我使用这样的代码时,使用这个选择器:"meta"

我收到了所有元数据的列表,但我只对一个特定的感兴趣。我应该使用哪个选择器从content此处仅下载这些信息:

编辑:谁能知道如何encoding正确设置参数?我在这样指定时收到了错误的编码:

编辑:

我在 hadley 的 github 项目https://github.com/hadley/rvest上找到了函数guess_encoding()repair_encoding()这个 readme.me 的概述

0 投票
1 回答
784 浏览

html - html_attr 不是“href”属性

首先,我真的是网络抓取的初学者。

所以在这个网站上工作。我试图通过有关 espisode 的讨论获取下一个网页的链接。使用 SelectorGadget 我设法只获得带有主题框架的 html 部分

现在我想获取主题的所有链接,所以我尝试了

但我明白了NA。我在互联网上看到了类似的例子,它应该可以工作。有什么建议为什么不这样做?

0 投票
1 回答
1486 浏览

html - 使用 rvest 抓取 GoodReads 页面

我正在尝试在 goodreads 上抓取评分和评论数字,但得到的是 NA 结果。为什么是这样?

SelectorGadget 为悬停时的平均评分找到“跨度跨度”,但在底部没有找到“有效路径”。

在其他网站(例如 IMDB、theatlantic.com)上使用相同的方法效果很好。

这是我的代码和结果(我也尝试用 html_tag 替换 html_text)

0 投票
1 回答
192 浏览

r - 使用 readHTMLTable 从 URL 抓取数据后,如何将结果转换为数据框?

我尝试了各种不同的操作,但我的基本问题是:

我的数据看起来不错,但我无法将其强制转换为数据框。我不知道是什么阻止了我。

0 投票
1 回答
86 浏览

r - 如何在 rvest 中编写正确的选择器

我正在使用rvest包从网站http://www.wp.pl/下载信息,但我只对带有特殊标签的链接感兴趣,data-cluster比如这个

关于如何在html_nodes()函数中指定选择器的任何想法?

0 投票
2 回答
2514 浏览

html - 提取 href attr 或将节点转换为字符列表

我尝试从网站上提取一些信息

我得到了 30 部分 HTML 代码的“列表”。我想从“列表”的每个元素中提取最后一个 href 属性,所以对于 30. 元素它将是

所以我想得到字符串

问题是html_attr(nodes, "href")不起作用(我得到了 NA 的向量)。所以我想到了正则表达式,但问题是那nodes不是字符列表。

我试过了

但它也不起作用。

所以我的问题是:如何使用为 HTML 创建的一些函数来提取这个 url?或者,如果不可能将 XMLNodeSet 转换为字符列表?

0 投票
0 回答
768 浏览

r - 在 R 的 rvest 中编写哪个选择器以从谷歌网络搜索中提取信息?

我正在尝试下载谷歌网络搜索的内容, <h3 class="r">如下图所示

我尝试使用rvest包在 R 中编写这样的选择器,但没有结果。任何人都知道选择器应该是什么样子?

我尝试过其他包,但我不喜欢乱七八糟的代码...(从本文更改代码)

这可能会有所帮助吗?我不明白这个功能,因为文档很差

例子