我为 R 中的测试文档 (000_1.txt,000_2.txt,000_11.txt) 中的单词频率创建了一个脚本。我希望以数字结尾 (1,2,11) 的顺序详细说明文件。
SO 是 Windows 7。目录“E:\testR”包含文件。
这是代码
library("tm")
pathElaboration <- "E:/testR"
setwd(pathElaboration)
dirSource <- DirSource(pathElaboration, encoding = "ISO-8859-2",pattern="*.txt")
vCorpusFiles <- VCorpus(dirSource, readerControl = list(language = "en"))
for (i in seq(from= 1, to=length(vCorpusFiles), by=1))
{
dtm <- DocumentTermMatrix(vCorpusFiles[i])
vectorFrequencyWord <- as.matrix(dtm)
print(vectorFrequencyWord)
}
但结果是
Terms
Docs file1
000_1.txt 1
Terms
Docs wordinfile11
000_11.txt 1
Terms
Docs wordinfile2
000_2.txt 1
我会详细说明序列 000_1.txt, 000_2.txt, 000_11.txt
我怎样才能解决这个问题?