我正在使用以下网站: http ://www.crowdrise.com/skollsechallenge
特别是在此页面上,有 57 个众筹活动。每个众筹活动都有文字,详细说明了他们想要筹集资金的原因、迄今为止筹集的资金总额以及团队成员。一些活动还指定了筹款目标。我想编写一些 R 代码,从 57 个站点中的每个站点中抓取和组织这些信息。
现在,我正在尝试删除导致 57 个不同活动的 57 个链接中的每一个。下面是我试过的代码:
library("RCurl")
library("XML")
library("stringr")
url <- "http://www.crowdrise.com/skollSEchallenge"
cat("URL:", url)
url.data <- readLines(url)
doc <- htmlTreeParse(url.data, useInternalNodes=TRUE)
xp_exp <- "//a[@href]"
links <- xpathSApply(doc, xp_exp,xmlValue)
变量
links
但是,不包含指向 57 个网站的链接......我有点困惑......有人可以帮助我吗?
谢谢,