r - 如何使用R创建网页中所有句子的特征向量

问问题 2014-03-27T01:45:18.670

248 次

我正在使用 R 来“抓取”网页并对其内容进行文本挖掘。我需要做的是在 R 中获取一个字符向量，其中向量中的每个元素都是网页中的一个句子。有没有办法识别 html 文档中的单个句子？以某种方式检测期间前后发生的任何事情。

我这样做是为了获取原始 URL 数据

library(XML)
library(RCurl)
url.link <- 'http://www.webpage.com'
webpage <- getURL(url.link)
webpage <- htmlParse(webpage, encoding = "UTF-8")
titles <- xpathSApply (webpage ,"//loc",xmlValue)

然后我从每一页中提取文本：

traverse_each_page <- function(x){
tmp <- htmlParse(getURI(x))
xpathSApply(tmp, '//div[@id="mainContent"]', xmlValue)
}

pages <- sapply(titles[2:3], traverse_each_page)

但我收到以下错误并且无法继续：

函数错误（类型、msg、asError = TRUE）：url 格式错误调用自：.rs.breakOnError(TRUE)

r - 如何使用R创建网页中所有句子的特征向量

0 回答 0

Related

Reference