我想查看文档中的词频,我的文档包含波斯语文本。我使用 R 如下:
keycorpus <- Corpus(DirSource("E:\\Sample\\farsi texts"))
tm.matrix <- TermDocumentMatrix(keycorpus)
View(as.matrix(tm.matrix))
尽管此代码适用于英文文本,但不幸的是它不适用于波斯文本。我怎样才能做到这一点?
我想查看文档中的词频,我的文档包含波斯语文本。我使用 R 如下:
keycorpus <- Corpus(DirSource("E:\\Sample\\farsi texts"))
tm.matrix <- TermDocumentMatrix(keycorpus)
View(as.matrix(tm.matrix))
尽管此代码适用于英文文本,但不幸的是它不适用于波斯文本。我怎样才能做到这一点?
假设您有一个名为 1.txt 的文本文件,那么:
Sys.setlocale(locale = "Persian",category = "LC_ALL")
setwd("E:\\Sample\\farsi_texts")
text<-readLines("1.txt",encoding = "windows-1256")
keycorpus <- Corpus(VectorSource(text))
tm.matrix <- TermDocumentMatrix(keycorpus)
View(as.matrix(tm.matrix))
它显示每行中的每个单词重复,您可以使用此代码进行聚合:
tm.iteration<-as.data.frame(apply(tm.matrix,1 ,sum))
View(as.matrix(tm.iteration))