问题标签 [rvest]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
html - 从 R 中的 HTML 选择/选项标签中抓取值
我正在尝试(相当不成功)使用 R 从网站(www.majidata.co.ke)抓取一些数据。我已经设法抓取 HTML 并解析它,但现在有点不确定如何提取我实际上的位需要!
使用该XML
库,我使用以下代码抓取我的数据:
这给我留下了(大)XMLDocumentContent。网页上有一个下拉列表,我想从中抓取值(与不同城镇的名称和身份证号有关)。我要提取的位是<option value ="XXX">
大写字母之间的数字及其后面的名称。
理想情况下,我希望将这些放在 data.frame 中,其中第一列是数字,第二列是名称,例如
等等
我真的不知道从这里去哪里。我曾想过使用正则表达式并匹配文本中的模式,尽管我从许多论坛中读到这是一个坏主意,并且使用 xpath 更好/更有效。xpathApply
除了认为我需要以某种方式使用之外,我不确定从哪里开始。
html - XPath 1.0 表达式返回 NULL
从这个网站,http://www.lewisthomason.com/locations/这部分HTML代码有我要提取的,即公司办公室所在的四个城市(诺克斯维尔、孟菲斯、纳什维尔和塞维尔维尔)
我已经尝试了这些 XPath 搜索的几种变体
我得到的都是NULL。什么表达会带回城市名称或整个地址?我知道第四个城市有,所以我将修改最后的表达。
感谢您的任何指导。
xml - RCurl 在下载 URL 内容时不起作用
该页面的下载不起作用。这是我得到的错误:
这是我的代码:
javascript - 在 R 中抓取 javascript 网站
我想从这个 url 中抓取比赛时间和日期:
http://www.scoreboard.com/game/rosol-l-goffin-d-2014/8drhX07d/#game-summary
通过使用 chrome 开发工具,我可以看到这似乎是使用以下代码生成的:
但这不在源 html 中。
我认为这是因为它的 java (如果我错了,请纠正我)。如何使用 R 抓取这些信息?
r - rvest 错误:“类中的错误(输出)<-”XMLNodeSet”:尝试将属性设置为 NULL”
我正在尝试使用新的 rvest 包抓取一组网页。它适用于大多数网页,但是当没有特定字母的表格条目时,会返回错误。
此代码可以正常工作,因为网页上有字母 E 的条目。
这不起作用,因为网页上没有字母 F 的条目。错误消息是“类中的错误(输出)<-“XMLNodeSet”:尝试将属性设置为 NULL”
有什么建议么。提前致谢。
r - R:使用 rvest 收集数据失败 - 因为“嵌套”表格?
为了提取带有“R”的内容,Hadley Wickam 提供了一个新包 'rvest'。它适用于简单的会话,例如获取铁路连接的时间表。但是当我尝试使用高级搜索时,它失败了:
与以下结果相同:
有任何想法吗?如果我修改并发送表单'p1.form',它就成功了。第二种形式的内容:
xml - R:使用 rvest 包而不是 XML 包从 URL 获取链接
我使用 XML 包从这个 url获取链接。
虽然这种方法非常有效,但我使用过rvest
并且在解析网络时似乎比XML
. 我试过了html_nodes
,html_attrs
但我无法让它工作。
r - 使用 rvest 和 selectorgadget 从 GEO 提取信息,得到错误:“类中的错误(输出)<-“XMLNodeSet”:尝试将属性设置为 NULL”
我想从此链接获取所有“样本”ID ,我的意思是所有 ID,例如“GSM545657”、“GSM545658”...。我想用新的包rvest
来解决我的问题,但是我对 CSS 和 xpath 不熟悉。我使用 selectorgadget来获取 CSS 选择器。我选择了第一个 ID:“GSM545657”,它变成了绿色,然后我删除了我不想要的信息(它们变成了红色)。现在,所有样品 ID 都是绿色或红色。CSS 选择器显示如下:"tr:nth-child(23) .eye-protector-processed a" 。我的代码是这样显示的
并且我将错误错误类(输出)<-“XMLNodeSet”:尝试将属性设置为NULL 如果我只选择两个ID,例如“GSM545665”和“GSM545666”,我可以使用
并得到结果,你能告诉我如何解决这个问题,我们将不胜感激。非常感谢!
r - 循环的 R 和 Web 抓取
我正在用 抓取一个网站urls http://example.com/post/X
,其中X 是一个从 1:5000 开始的数字,
我可以rvest
使用以下代码抓取:
我需要代码来抓取网站上的所有页面,并将抓取的数据放在一个表格中,每个页面都在一个新行中。请帮忙