问题标签 [rvest]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

2417 问题

0 投票

2 回答

4932 浏览

html - 从 R 中的 HTML 选择/选项标签中抓取值

我正在尝试（相当不成功）使用 R 从网站（www.majidata.co.ke）抓取一些数据。我已经设法抓取 HTML 并解析它，但现在有点不确定如何提取我实际上的位需要！

使用该XML库，我使用以下代码抓取我的数据：

这给我留下了（大）XMLDocumentContent。网页上有一个下拉列表，我想从中抓取值（与不同城镇的名称和身份证号有关）。我要提取的位是<option value ="XXX">大写字母之间的数字及其后面的名称。

理想情况下，我希望将这些放在 data.frame 中，其中第一列是数字，第二列是名称，例如

等等

我真的不知道从这里去哪里。我曾想过使用正则表达式并匹配文本中的模式，尽管我从许多论坛中读到这是一个坏主意，并且使用 xpath 更好/更有效。xpathApply除了认为我需要以某种方式使用之外，我不确定从哪里开始。

html r web-scraping rvest

2014-09-22T02:04:14.670

0 投票

2 回答

133 浏览

html - XPath 1.0 表达式返回 NULL

从这个网站，http://www.lewisthomason.com/locations/这部分HTML代码有我要提取的，即公司办公室所在的四个城市（诺克斯维尔、孟菲斯、纳什维尔和塞维尔维尔）

我已经尝试了这些 XPath 搜索的几种变体

我得到的都是NULL。什么表达会带回城市名称或整个地址？我知道第四个城市有，所以我将修改最后的表达。

感谢您的任何指导。

html r xpath html-parsing rvest

2014-09-22T12:37:33.520

0 投票

1 回答

1161 浏览