r - 使用 R 从 html 定义列表中抓取变量名称和值

Question

我希望从 R 中一些 html 代码中的定义列表中提取一些数据。到目前为止，我已经完成了以下工作；

url <- "myurl"
doc <- htmlParse(url)

然后我（想我）想用它xpathSApply来提取列表数据；但是我一直返回一个错误...我对网络抓取和 HTML 的概念不熟悉，所以我不完全确定该函数如何定位要抓取的数据。

我如何找到xpath传递给的xpathSApply？

我想将有关公司名称、编号、地址、董事等的数据刮到每个查询的一个观察值中。

score 1 · Accepted Answer

Firefox 有一个名为 FireBug 的惊人插件，以及一个名为 FirePath 的扩展。使用它，您可以右键单击网页上的任何元素，然后单击“检查”。这将向您显示要传递给的 XPath xpathSApply。

score 0 · Accepted Answer

If you can't use Firebug there's a nifty bookmarklet called SelectorGadget that does much the same thing and should work in IE9

score 0 · Accepted Answer

0

原来我需要的语法是 '//node[@class="myclass"]' 用于 xpathSAppply 函数。祝大家欢呼

于 2012-12-19T12:10:45.183 回答

3 回答 3