1
4

3 回答 3

3

尝试

library(XML)
fileUrl <- ("http:\\wherever you got your file")
doc <- htmlTreeParse(fileUrl, useInternal=T)
xpathSApply(doc, "//a[@href]", xmlGetAttr, "href")

示范:

fileUrl <- "http://kimkardashianonline.org/"
doc <- htmlTreeParse(fileUrl, useInternal=T)
xpathSApply(doc, "//a[@href]", xmlGetAttr, "href")
[1] "http://kimkardashianonline.org/?page_id=2"                                        
[2] "http://www.kimkardashianonline.org/gallery/"                                      
[3] "http://www.kimkardashianonline.org/icons/"                                        
[4] "http://#"                                                                         
[5] "http://kimkardashianonline.org/?page_id=42"   
于 2015-04-24T19:15:08.460 回答
2

在@plafort 的回答中,除非您提前知道要将 href 属性值设置为什么,否则不需要 [@href] 。因此,这是一个通用的前进方向。这适用于这个 url 请求。显然 '_blank' 不是你想要的。


    library(XML)
    library(RCurl)
    gSite <- getURL("http://www.sitepoint.com/web-foundations/target-html-attribute/") 
    sParse <- htmlParse(gSite)
    xpathSApply(sParse, "//a[@target='_blank']", xmlGetAttr, "href") 
于 2015-04-25T14:20:07.700 回答
1

您可以使用 :webElem$getElementAttribute("href")

于 2018-02-16T20:22:16.827 回答