问题标签 [rvest]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
html - 从 R 中的 HTML 选择/选项标签中抓取值
我正在尝试(相当不成功)使用 R 从网站(www.majidata.co.ke)抓取一些数据。我已经设法抓取 HTML 并解析它,但现在有点不确定如何提取我实际上的位需要!
使用该XML
库,我使用以下代码抓取我的数据:
这给我留下了(大)XMLDocumentContent。网页上有一个下拉列表,我想从中抓取值(与不同城镇的名称和身份证号有关)。我要提取的位是<option value ="XXX">
大写字母之间的数字及其后面的名称。
理想情况下,我希望将这些放在 data.frame 中,其中第一列是数字,第二列是名称,例如
等等
我真的不知道从这里去哪里。我曾想过使用正则表达式并匹配文本中的模式,尽管我从许多论坛中读到这是一个坏主意,并且使用 xpath 更好/更有效。xpathApply
除了认为我需要以某种方式使用之外,我不确定从哪里开始。
html - XPath 1.0 表达式返回 NULL
从这个网站,http://www.lewisthomason.com/locations/这部分HTML代码有我要提取的,即公司办公室所在的四个城市(诺克斯维尔、孟菲斯、纳什维尔和塞维尔维尔)
我已经尝试了这些 XPath 搜索的几种变体
我得到的都是NULL。什么表达会带回城市名称或整个地址?我知道第四个城市有,所以我将修改最后的表达。
感谢您的任何指导。