我想使用 XPath 返回每个锚标记内链接的字符向量。
我可以返回感兴趣的表
library(RCurl)
library(XML)
url <- "http://dps.alaska.gov/sorweb/aspx/sorcra1.aspx"
readHTMLTable(url, useInternalNodes = T)[[3]]
但我还想返回与名称关联的每个锚标记中的链接。这就是我到目前为止所拥有的。
dat <- htmlTreeParse(url, useInternalNodes = T)
getNodeSet(dat, "///tr/td/a")
所以我的输出是一个 RCurl 对象的列表,而不是所需的字符向量,并且除了我的表中的标签之外,我还包含了其他标签,但 XPath 不完美。
所以我的问题是两个部分。如何将 getNodeSet 元素输出转换为带有标签的字符向量,什么是获得所需 XPath 搜索的有效方法?