0

我使用 HTMLTreeParser 获得了这个结构,我需要将文本包含在页面中

doc <- htmlTreeParse(url, useInternalNodes = FALSE)
doc
$file
[1] "http://www.google.com/trends/fetchComponent?q=asdf,qwerty&cid=TIMESERIES_GRAPH_0&export=3"

$version
[1] ""

$children
$children$html
<html>
<body>
<p>// Data table response google.visualization.Query.setResponse([INSERT LOT OF JSON HERE])</p>
</body>
</html>
attr(,"class")
[1] "XMLDocumentContent"

我正在寻找“p”块上的内容。我今天没有找到任何可以帮助我的东西。
那么,我怎样才能得到这些数据呢?

4

1 回答 1

0

如果要在文档上运行 XPath,则需要设置useInternalNodes = TRUE(参见文档中有关此参数)。下面的代码应该让您开始使用 XPath。

[注意:当我运行你的代码时,我得到一个错误页面,而不是你得到的文档。]

library(XML)
url <- "http://www.google.com/trends/fetchComponent?q=asdf,qwerty&cid=TIMESERIES_GRAPH_0&export=3"
doc <- htmlTreeParse(url, useInternalNodes = T)
# XPath examples
p        <- doc["//p"]        # nodelist of all the <p> elements (there aren't any...)
div      <- doc["//div"]      # nodelist of all the <div> elememts
scripts  <- doc["//script"]   # nodelist of all the <script> elements
b.script <- doc["//body/script"]    # nodelist of all <script> elements within the <body>

# title of the page
xmlValue(doc["//head/title"][[1]])
# [1] "Google Trends - An error has been detected"

基本上,您可以像使用文档索引一样使用 XPath 字符串。所以在你的情况下,

xmlValue(doc["//p"][[1]])

应该返回包含在(第一个)<p>元素中的文本doc

于 2014-03-07T06:18:04.350 回答