问题标签 [rvest]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
4932 浏览

html - 从 R 中的 HTML 选择/选项标签中抓取值

我正在尝试(相当不成功)使用 R 从网站(www.majidata.co.ke)抓取一些数据。我已经设法抓取 HTML 并解析它,但现在有点不确定如何提取我实际上的位需要!

使用该XML库,我使用以下代码抓取我的数据:

这给我留下了(大)XMLDocumentContent。网页上有一个下拉列表,我想从中抓取值(与不同城镇的名称和身份证号有关)。我要提取的位是<option value ="XXX">大写字母之间的数字及其后面的名称。

理想情况下,我希望将这些放在 data.frame 中,其中第一列是数字,第二列是名称,例如

等等

我真的不知道从这里去哪里。我曾想过使用正则表达式并匹配文本中的模式,尽管我从许多论坛中读到这是一个坏主意,并且使用 xpath 更好/更有效。xpathApply除了认为我需要以某种方式使用之外,我不确定从哪里开始。

0 投票
2 回答
133 浏览

html - XPath 1.0 表达式返回 NULL

从这个网站,http://www.lewisthomason.com/locations/这部分HTML代码有我要提取的,即公司办公室所在的四个城市(诺克斯维尔、孟菲斯、纳什维尔和塞维尔维尔)

我已经尝试了这些 XPath 搜索的几种变体

我得到的都是NULL。什么表达会带回城市名称或整个地址?我知道第四个城市有,所以我将修改最后的表达。

感谢您的任何指导。

0 投票
1 回答
1161 浏览

r - R:切换