r - 在 R 中，如何解析网页中的特定框架？

Question

大家好，

有没有办法只从网页中的特定框架读取 HTML 代码？

例如，如果我向谷歌翻译提交一个 url，有没有办法只解析翻译后的页面框架？每当我尝试时，我只能访问页面上的顶部框架，而不能访问已翻译的框架。这是我的独立示例代码：

library(XML)
url <- "http://www.baidu.com/s?wd=r+project"
url.google.translate <- URLencode(paste("http://translate.google.com/translate?js=y&prev=_t&hl=en&ie=UTF-8&layout=1&eotf=1&sl=zh-CN&tl=en&u=", url, sep=""))
htmlTreeParse(url.google.translate, useInternalNodes = FALSE)

上面的代码引用了这个 url：

$file
[1] "http://translate.google.com/translate?js=y&prev=_t&hl=en&ie=UTF-8&layout=1&eotf=1&sl=zh-CN&tl=en&u=http://www.baidu.com/s?wd=r+project"

然而，输出只访问页面的顶部框架，而不是主框架，这是我感兴趣的。

希望这是有道理的，并提前感谢您的帮助。

托尼

更新 - 感谢下面@kwantam 的回答（已接受），我能够使用它来获得我的解决方案，如下所示（自包含）：

> # Load R packages
> library(RCurl)
> library(XML)
> 
> # STAGE 1 - find forward url in relevent frame
> ( url <- "http://www.baidu.com/s?wd=r+project" )
[1] "http://www.baidu.com/s?wd=r+project"
> gt.url <- URLencode(paste("http://translate.google.com/translate?js=y&prev=_t&hl=en&ie=UTF-8&layout=1&eotf=1&sl=zh-CN&tl=en&u=", url, sep=""))
> gt.doc <- getURL(gt.url)
> gt.html <- htmlTreeParse(gt.doc, useInternalNodes = TRUE, error=function(...){})
> nodes <- getNodeSet(gt.html, '//frameset//frame[@name="c"]')
> gt.parameters <- sapply(nodes, function(x) x <- xmlAttrs(x)[[1]])
> gt.url <- paste("http://translate.google.com", gt.parameters, sep = "")
> 
> # STAGE 2 - find forward url to translated page
> doc <- getURL(gt.url, followlocation = TRUE)
> html <- htmlTreeParse(doc, useInternalNodes = TRUE, error=function(...){})
> url.trans <- capture.output(getNodeSet(html, '//meta[@http-equiv="refresh"]')[[1]])
> url.trans <- strsplit(url.trans, "URL=", fixed = TRUE)[[1]][2]
> url.trans <- gsub("\"/>", "", url.trans, fixed = TRUE)
> url.trans <- xmlValue(getNodeSet(htmlParse(url.trans, asText = TRUE), "//p")[[1]])
> 
> # STAGE 3 - load translated page
> url.trans
[1] "http://translate.googleusercontent.com/translate_c?hl=en&ie=UTF-8&sl=zh-CN&tl=en&u=http://www.baidu.com/s%3Fwd%3Dr%2520project&prev=_t&rurl=translate.google.com&usg=ALkJrhiCMu1mKv-czCmEaB7PO925TJCa-A "
> #getURL(url.trans)

如果有人知道我上面给出的更简单的解决方案，请随时告诉我！:)

score 2 · Accepted Answer

以下大部分答案是针对谷歌翻译的特殊情况。在大多数情况下，您只需要解析<frameset>并拉出您正在寻找的任何框架，尽管可能不会立即明显看出哪个是 HTML 中的主要框架（也许看看框架的相对大小）。

看起来您将不得不进行几次刷新才能获得实际内容。特别是，当您抓取刚才提到的 URL 时，您会看到类似

  *snip*
<noframes>
<script>
<!--document.location="/translate_p?hl=en&amp;ie=UTF-8&amp;sl=zh-CN&amp;tl=en&amp;u=http://www.baidu.com/s%3Fwd%3Dr%2520project&amp;prev=_t&amp;usg=asdf";-->
</script>
<a href="/translate_p?hl=en&amp;ie=UTF-8&amp;sl=zh-CN&amp;tl=en&amp;u=http://www.baidu.com/s%3Fwd%3Dr%2520project&amp;prev=_t&amp;usg=asdf">Translate
</a>
</noframes>
  *snip*

如果您点击此处的链接（请记住首先取消转义“&”），它会给您另一个小的 HTML 片段，其中包括

<meta http-equiv="refresh" content="0;URL=http://translate.googleusercontent.com/translate_c?hl=en&amp;ie=UTF-8&amp;sl=zh-CN&amp;tl=en&amp;u=http://www.baidu.com/s%3Fwd%3Dr%2520project&amp;prev=_t&amp;rurl=translate.google.com&amp;usg=asdf">

再次，取消转义“&”，然后在刷新之后，您将获得您正在寻找的翻译页面。

在 wget 或 curl 中玩这个，它应该会变得更清楚你需要做什么。

score 2 · Accepted Answer

对于您的特定翻译需求，也许您最好通过 REST 接口访问谷歌翻译 API，而不是屏幕抓取：

http://code.google.com/apis/language/translate/overview.html

r - 在 R 中，如何解析网页中的特定框架？

2 回答 2

Related

Reference