0

我为 R 中的测试文档 (000_1.txt,000_2.txt,000_11.txt) 中的单词频率创建了一个脚本。我希望以数字结尾 (1,2,11) 的顺序详细说明文件。

SO 是 Windows 7。目录“E:\testR”包含文件。

这是代码

library("tm")

pathElaboration <- "E:/testR"
setwd(pathElaboration)
dirSource <- DirSource(pathElaboration, encoding =   "ISO-8859-2",pattern="*.txt")
vCorpusFiles <- VCorpus(dirSource, readerControl = list(language = "en"))
for (i in seq(from= 1, to=length(vCorpusFiles), by=1))
{
  dtm <- DocumentTermMatrix(vCorpusFiles[i])
  vectorFrequencyWord <- as.matrix(dtm)
  print(vectorFrequencyWord)
}

但结果是

           Terms
Docs        file1
  000_1.txt     1
           Terms
Docs         wordinfile11
  000_11.txt            1
          Terms
Docs        wordinfile2
  000_2.txt           1

我会详细说明序列 000_1.txt, 000_2.txt, 000_11.txt

我怎样才能解决这个问题?

4

1 回答 1

0

这是一个文本排序顺序,所以这应该有效:

dtm <- dtm[order(Docs(dtm)), ]
于 2015-07-21T01:30:43.870 回答