我需要使用我的 java web 应用程序从保存为文本文件的新闻数据中提取关键字。我正在使用 Language R 和 Renjin 进行文本挖掘(从 Renjin 网站打包 tm)并提取关键字。该脚本在 RStudio 中确实有效,但无法在我的 Java Web 应用程序中使用 Renjin 运行。每当我尝试创建语料库时,都会发生此异常。请建议我一个解决方案。
org.renjin.eval.EvalException: 命名空间 org.renjin:tools 没有名为 '.get_internal_S3_generics' 的符号
我的 R 脚本文件读取 txt 文件并将关键字及其频率写入 csv 文件,如下所示:
library(tm)
library(SnowballC)
setwd('/home/lalkrishna/Desktop/keywordtest/')
newsfile <- scan(file = "0e3cdf1b-8fa4-4df0-8977-906d5865008b.txt",what = character() )
news_Corpus <- Corpus(VectorSource(newsfile))
news_Corpus <- tm_map(news_Corpus, removePunctuation)
news_Corpus <- tm_map(news_Corpus, removeNumbers)
news_Corpus <- tm_map(news_Corpus, tolower)
new_stopwords = scan("/home/lalkrishna/Desktop/keywordtest/stop-wordlist.csv", what = character())
updated_stopword_list = c(stopwords("english"),new_stopwords)
news_Corpus <- tm_map(news_Corpus, removeWords, updated_stopword_list)
news_Corpus <- tm_map(news_Corpus, stemDocument)
news_Corpus <- tm_map(news_Corpus, stripWhitespace)
news_Corpus <- tm_map(news_Corpus, PlainTextDocument)
dtm <- DocumentTermMatrix(news_Corpus)
tdm <- TermDocumentMatrix(news_Corpus)
freqs <- as.data.frame(inspect(dtm))
colSums(freqs)
which(apply(tdm, 1, sum) > 2)
write.csv(colSums(freqs), file = "term-freq.csv")