我正在尝试从以下网址http://live.reuters.com/Event/rss.aspx?id=70335的 RSS 提要中提取数据。本质上,我想使用这篇文章中概述的代码提取每篇文章的标题和日期:Parse RSS feed using XML packagin R
代码本身是
library(XML)
library(RCurl)
###Extracting Data from Reuters
xml.url <- "http://live.reuters.com/Event/rss.aspx?id=70335"
script <- getURL(xml.url)
doc <- xmlParse(script)
titles <- xpathSApply(doc,'//item/title',xmlValue)
pubdates <- xpathSApply(doc,'//item/pubDate',xmlValue)
reuters<-cbind(titles, pubdates)
reuters_data<-data.frame(reuters)
#Exporting as a csv
write.csv(reuters_data, file = "reuters_post.csv")
该代码几乎完全符合我的要求。但是,我遇到的问题是它只提取了前 45 个帖子。我知道有接近 1000 个帖子。这是否与 rss.aspx 格式有关?有没有一种解决方法可以让我获得 RSS 提要中的所有帖子,而不仅仅是前 45 个?任何帮助将不胜感激,因为我是数据抓取的新手。
谢谢,托马斯