我想抓取谷歌搜索的点击次数:
require(XML)
input <- "projektgebiet"
url <- paste("https://www.google.at/search?q=",
input,
"&ie=utf-8&oe=utf-8&aq=t&rls=org.mozilla:de:official&client=firefox-a",
sep = "")
CAINFO = paste(system.file(package="RCurl"), "/CurlSSL/ca-bundle.crt", sep = "")
script <- getURL(url, followlocation = TRUE, cainfo = CAINFO)
doc <- htmlParse(script)
xmlValue(getNodeSet(doc, "//td")[[6]])
我很接近 - 唯一的问题是我不知道如何分别处理节点内的两个值 - 我实际上只想要数字..(在上面的示例中,两个值是连接的)
我还想知道如何避免索引 [[6]],但不知道是否可以通过任何其他特征来寻址节点。
任何帮助或指示将不胜感激!
ps:当然我可以使用正则表达式 - 但我认为这不是最优雅的方式..