我希望从 R 中一些 html 代码中的定义列表中提取一些数据。到目前为止,我已经完成了以下工作;
url <- "myurl"
doc <- htmlParse(url)
然后我(想我)想用它xpathSApply
来提取列表数据;但是我一直返回一个错误...我对网络抓取和 HTML 的概念不熟悉,所以我不完全确定该函数如何定位要抓取的数据。
我如何找到xpath
传递给的xpathSApply
?
一个示例网址是http://opencorporates.com/companies/gb/06309283
我想将有关公司名称、编号、地址、董事等的数据刮到每个查询的一个观察值中。