这是我的代码:
library(XML)
library(RCurl)
url.link <- 'http://www.jamesaltucher.com/sitemap.xml'
blog <- getURL(url.link)
blog <- htmlParse(blog, encoding = "UTF-8")
titles <- xpathSApply (blog ,"//loc",xmlValue) ## titles
目前,我可以正确地获取里面的链接titles
。
我想进入每个链接并抓取每个博客文章的内容以进行关键字频率计数。
我相信我的伪代码基本上是。
- 对于每个条目
titles
- 获取条目并检索 HTML 标记
- 解析标记并提取下的内容
div id="mainContent"
如何在 R 中执行我的伪代码的第 1 步和第 2 步?
这是我到目前为止的进度截图: