问题标签 [rvest]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

2417 问题

0 投票

2 回答

154 浏览

r - Scraping data off site using 4 urls for one day using R

I am trying to scrape all the historical Air Pollution Index data from the Malaysian Department of Environment site that has the data split for all the stations into 4 hourly links per/day as below

http://apims.doe.gov.my/apims/hourly1.php?date=20130701 http://apims.doe.gov.my/apims/hourly2.php?date=20130701

Same as above with 'hourly3.php?' and 'hourly4.php?'

I am only a bit familiar with R so what would be the easiest way to do this using maybe the XML or scrapeR library?

r web-scraping rvest

2015-03-03T02:50:18.033

0 投票

2 回答

4580 浏览

r - 通过循环 rvest::follow_link() 函数来抓取链接的 HTML 网页

如何循环该rvest::follow_link()功能以抓取链接的网页？

用例：

识别所有乐高电影演员
关注所有乐高电影演员链接
为所有演员获取每部电影（+ 年）的表格

我需要的所需选择器如下：

期望的输出：

r web-scraping rvest

2015-03-04T20:01:47.083

0 投票

1 回答

3201 浏览

r - 从 url 列表中获取 (rvest) 多个 HTML 页面

我有一个看起来像这样的数据框：

使用rvest我想抓取每个 url的目录并将它们绑定到一个输出。

此代码提取一个 url 的目录：

期望的输出：

r rvest

2015-03-06T19:55:13.267

0 投票

1 回答

784 浏览

html - 在 R 的 rvest 包中的 html 函数中使用哪个选择器？

我想解析包含此类信息的 HTML 页面：

我在 R 中使用rvest 包。当我使用这样的代码时，使用这个选择器："meta"

我收到了所有元数据的列表，但我只对一个特定的感兴趣。我应该使用哪个选择器从content此处仅下载这些信息：

编辑：谁能知道如何encoding正确设置参数？我在这样指定时收到了错误的编码：

编辑：

我在 hadley 的 github 项目https://github.com/hadley/rvest上找到了函数guess_encoding()和repair_encoding()这个 readme.me 的概述

html r parsing rvest

2015-03-09T16:28:04.023

0 投票

1 回答

784 浏览

html - html_attr 不是“href”属性

首先，我真的是网络抓取的初学者。

所以在这个网站上工作。我试图通过有关 espisode 的讨论获取下一个网页的链接。使用 SelectorGadget 我设法只获得带有主题框架的 html 部分

现在我想获取主题的所有链接，所以我尝试了

但我明白了NA。我在互联网上看到了类似的例子，它应该可以工作。有什么建议为什么不这样做？

html r web-scraping rvest

2015-03-10T21:36:05.897

0 投票

1 回答

1486 浏览

html - 使用 rvest 抓取 GoodReads 页面

我正在尝试在 goodreads 上抓取评分和评论数字，但得到的是 NA 结果。为什么是这样？

SelectorGadget 为悬停时的平均评分找到“跨度跨度”，但在底部没有找到“有效路径”。

在其他网站（例如 IMDB、theatlantic.com）上使用相同的方法效果很好。

这是我的代码和结果（我也尝试用 html_tag 替换 html_text）

html r web-scraping rvest

2015-03-11T21:14:19.553

0 投票

1 回答

192 浏览

r - 使用 readHTMLTable 从 URL 抓取数据后，如何将结果转换为数据框？

我尝试了各种不同的操作，但我的基本问题是：

我的数据看起来不错，但我无法将其强制转换为数据框。我不知道是什么阻止了我。

r xml-parsing rvest

2015-03-12T19:20:07.290

0 投票

1 回答

86 浏览

r - 如何在 rvest 中编写正确的选择器

我正在使用rvest包从网站http://www.wp.pl/下载信息，但我只对带有特殊标签的链接感兴趣，data-cluster比如这个

关于如何在html_nodes()函数中指定选择器的任何想法？

r selector rvest

2015-03-13T10:00:06.580

0 投票

2 回答

2514 浏览

html - 提取 href attr 或将节点转换为字符列表

我尝试从网站上提取一些信息

我得到了 30 部分 HTML 代码的“列表”。我想从“列表”的每个元素中提取最后一个 href 属性，所以对于 30. 元素它将是

所以我想得到字符串

问题是html_attr(nodes, "href")不起作用（我得到了 NA 的向量）。所以我想到了正则表达式，但问题是那nodes不是字符列表。

我试过了

但它也不起作用。

所以我的问题是：如何使用为 HTML 创建的一些函数来提取这个 url？或者，如果不可能将 XMLNodeSet 转换为字符列表？

html r rvest

2015-03-13T21:12:03.080

0 投票

0 回答

768 浏览

r - 在 R 的 rvest 中编写哪个选择器以从谷歌网络搜索中提取信息？

我正在尝试下载谷歌网络搜索的内容， <h3 class="r">如下图所示

我尝试使用rvest包在 R 中编写这样的选择器，但没有结果。任何人都知道选择器应该是什么样子？

我尝试过其他包，但我不喜欢乱七八糟的代码...（从本文更改代码）

这可能会有所帮助吗？我不明白这个功能，因为文档很差

r selector rvest

2015-03-14T18:41:46.613

1 2 3 4 5 6 7 8 9 10

问题标签 [rvest]

Reference