1
library(tm)  
reut21578 <- system.file("texts", "crude", package = "tm")  
reuters <- Corpus(DirSource(reut21578), 
                  readerControl = list(reader = readReut21578XML))  
file <- "reut-0001.xml"   
reuters <- Corpus(ReutersSource(file), readerControl = list(reader = readReut21578XML))  

我正在使用 tm 包访问路透社数据,但在 ReutersSource 中出现错误

继承错误(x,“Source”):找不到函数“ReutersSource”

4

1 回答 1

1

我认为开发人员已经ReutersSource()从 tm 包的源代码中删除了。

如果要读取单个特定文件,可以将过滤器表达式传递给DirSource()函数,如下所示:

reuters <- Corpus(DirSource(reut21578, pattern = "00001.xml"), 
                   readerControl = list(reader = readReut21578XMLasPlain))

   cat(content(reuters[[1]]))

结果:

Diamond Shamrock Corp 表示,从今天开始,它已将原油合约价格每桶下调 1.50 dlrs。该公司表示,此次降价使其公布的西德克萨斯中质原油价格达到每桶 16.00 dlrs。公司发言人说:“今天的降价是在石油产品价格下跌和原油市场疲软的情况下作出的。” Diamond 是最近两天因石油市场疲软而削减合同或公布价格的美国石油公司中的最新一家。路透社

于 2016-01-28T15:05:07.500 回答