问题标签 [rvest]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - Scraping data off site using 4 urls for one day using R
I am trying to scrape all the historical Air Pollution Index data from the Malaysian Department of Environment site that has the data split for all the stations into 4 hourly links per/day as below
http://apims.doe.gov.my/apims/hourly1.php?date=20130701 http://apims.doe.gov.my/apims/hourly2.php?date=20130701
Same as above with 'hourly3.php?' and 'hourly4.php?'
I am only a bit familiar with R so what would be the easiest way to do this using maybe the XML or scrapeR library?
r - 通过循环 rvest::follow_link() 函数来抓取链接的 HTML 网页
如何循环该rvest::follow_link()功能以抓取链接的网页?
用例:
- 识别所有乐高电影演员
- 关注所有乐高电影演员链接
- 为所有演员获取每部电影(+ 年)的表格
我需要的所需选择器如下:
期望的输出:
r - 从 url 列表中获取 (rvest) 多个 HTML 页面
我有一个看起来像这样的数据框:
使用rvest我想抓取每个 url的目录并将它们绑定到一个输出。
此代码提取一个 url 的目录:
期望的输出:
html - 在 R 的 rvest 包中的 html 函数中使用哪个选择器?
我想解析包含此类信息的 HTML 页面:
我在 R 中使用rvest 包。当我使用这样的代码时,使用这个选择器:"meta"
我收到了所有元数据的列表,但我只对一个特定的感兴趣。我应该使用哪个选择器从content此处仅下载这些信息:
编辑:谁能知道如何encoding正确设置参数?我在这样指定时收到了错误的编码:
编辑:
我在 hadley 的 github 项目https://github.com/hadley/rvest上找到了函数guess_encoding()和repair_encoding()这个 readme.me 的概述
html - html_attr 不是“href”属性
首先,我真的是网络抓取的初学者。
所以在这个网站上工作。我试图通过有关 espisode 的讨论获取下一个网页的链接。使用 SelectorGadget 我设法只获得带有主题框架的 html 部分
现在我想获取主题的所有链接,所以我尝试了
但我明白了NA。我在互联网上看到了类似的例子,它应该可以工作。有什么建议为什么不这样做?
html - 使用 rvest 抓取 GoodReads 页面
我正在尝试在 goodreads 上抓取评分和评论数字,但得到的是 NA 结果。为什么是这样?
SelectorGadget 为悬停时的平均评分找到“跨度跨度”,但在底部没有找到“有效路径”。
在其他网站(例如 IMDB、theatlantic.com)上使用相同的方法效果很好。
这是我的代码和结果(我也尝试用 html_tag 替换 html_text)
r - 使用 readHTMLTable 从 URL 抓取数据后,如何将结果转换为数据框?
我尝试了各种不同的操作,但我的基本问题是:
我的数据看起来不错,但我无法将其强制转换为数据框。我不知道是什么阻止了我。
r - 如何在 rvest 中编写正确的选择器
我正在使用rvest包从网站http://www.wp.pl/下载信息,但我只对带有特殊标签的链接感兴趣,data-cluster比如这个
关于如何在html_nodes()函数中指定选择器的任何想法?
html - 提取 href attr 或将节点转换为字符列表
我尝试从网站上提取一些信息
我得到了 30 部分 HTML 代码的“列表”。我想从“列表”的每个元素中提取最后一个 href 属性,所以对于 30. 元素它将是
所以我想得到字符串
问题是html_attr(nodes, "href")不起作用(我得到了 NA 的向量)。所以我想到了正则表达式,但问题是那nodes不是字符列表。
我试过了
但它也不起作用。
所以我的问题是:如何使用为 HTML 创建的一些函数来提取这个 url?或者,如果不可能将 XMLNodeSet 转换为字符列表?
r - 在 R 的 rvest 中编写哪个选择器以从谷歌网络搜索中提取信息?
我正在尝试下载谷歌网络搜索的内容,
<h3 class="r">如下图所示
我尝试使用rvest包在 R 中编写这样的选择器,但没有结果。任何人都知道选择器应该是什么样子?
我尝试过其他包,但我不喜欢乱七八糟的代码...(从本文更改代码)
这可能会有所帮助吗?我不明白这个功能,因为文档很差
