我最近学习了如何选择单个 CSV 文件并使用 R 中的文本挖掘在文件中查找最常用的单词。我现在想做的是让 R 搜索多个 CSV 文件(在我的示例中,我有 5 个) 并挑选出出现在每个 CSV 文件中的相似词。仅供参考 - 在我的 5 个文件中,我人为地插入了“象形文字”这个词,我希望我的代码能够将它作为匹配词拉出所有 5 个文件,以及与所有 5 个文件匹配的任何其他词文件。
我已经将代码设置如下,但我真的很想知道如何继续。任何人都可以帮忙吗?
提前谢谢了,
保罗
PS 作为扩展(如果以上内容对你们中的某些人来说太容易了!) - 有没有办法可以提取包含单词的 5 个 CSV 文件的数量?继续上面的例子,如果单词“Egypt”只包含在 5 个 CSV 文件中的 4 个中,R 程序是否可以提取每个单词并为所有单词说“hieroglypics - 5”、“Egypt - 4”等全部 5 个文件?
install.packages('tm')
library(tm)
setwd('C:\\Users\\900369\\Documents\\R\\Text Mining\\')
reviews1 <- read.csv("Evo-USA-Oct-Nov-141-160.csv",stringsAsFactors=FALSE)
reviews2 <- read.csv("Evo-USA-Oct-Nov-141-160 - Copy (2).csv",stringsAsFactors=FALSE)
reviews3 <- read.csv("Evo-USA-Oct-Nov-141-160 - Copy (3).csv",stringsAsFactors=FALSE)
reviews4 <- read.csv("Evo-USA-Oct-Nov-141-160 - Copy (4).csv",stringsAsFactors=FALSE)
reviews5 <- read.csv("Evo-USA-Oct-Nov-141-160 - Copy (5).csv",stringsAsFactors=FALSE)
filenames <- list.files('C:\\Users\\900369\\Documents\\R\\Text Mining\\',"*csv",FALSE,FALSE,FALSE,FALSE,FALSE)