2

我希望从 R 中一些 html 代码中的定义列表中提取一些数据。到目前为止,我已经完成了以下工作;

url <- "myurl"
doc <- htmlParse(url)

然后我(想我)想用它xpathSApply来提取列表数据;但是我一直返回一个错误...我对网络抓取和 HTML 的概念不熟悉,所以我不完全确定该函数如何定位要抓取的数据。

我如何找到xpath传递给的xpathSApply

一个示例网址是http://opencorporates.com/companies/gb/06309283

我想将有关公司名称、编号、地址、董事等的数据刮到每个查询的一个观察值中。

4

3 回答 3

1

Firefox 有一个名为 FireBug 的惊人插件,以及一个名为 FirePath 的扩展。使用它,您可以右键单击网页上的任何元素,然后单击“检查”。这将向您显示要传递给的 XPath xpathSApply

于 2012-12-18T18:31:18.977 回答
0

If you can't use Firebug there's a nifty bookmarklet called SelectorGadget that does much the same thing and should work in IE9

于 2012-12-18T22:11:39.387 回答
0

原来我需要的语法是 '//node[@class="myclass"]' 用于 xpathSAppply 函数。祝大家欢呼

于 2012-12-19T12:10:45.183 回答