r - R中对多个文件的文本挖掘——挖掘文件中的相似词

Question

我最近学习了如何选择单个 CSV 文件并使用 R 中的文本挖掘在文件中查找最常用的单词。我现在想做的是让 R 搜索多个 CSV 文件（在我的示例中，我有 5 个) 并挑选出出现在每个 CSV 文件中的相似词。仅供参考 - 在我的 5 个文件中，我人为地插入了“象形文字”这个词，我希望我的代码能够将它作为匹配词拉出所有 5 个文件，以及与所有 5 个文件匹配的任何其他词文件。

我已经将代码设置如下，但我真的很想知道如何继续。任何人都可以帮忙吗？

提前谢谢了，

保罗

PS 作为扩展（如果以上内容对你们中的某些人来说太容易了！） - 有没有办法可以提取包含单词的 5 个 CSV 文件的数量？继续上面的例子，如果单词“Egypt”只包含在 5 个 CSV 文件中的 4 个中，R 程序是否可以提取每个单词并为所有单词说“hieroglypics - 5”、“Egypt - 4”等全部 5 个文件？

install.packages('tm')
library(tm)
setwd('C:\\Users\\900369\\Documents\\R\\Text Mining\\')
reviews1 <- read.csv("Evo-USA-Oct-Nov-141-160.csv",stringsAsFactors=FALSE)
reviews2 <- read.csv("Evo-USA-Oct-Nov-141-160 - Copy (2).csv",stringsAsFactors=FALSE)
reviews3 <- read.csv("Evo-USA-Oct-Nov-141-160 - Copy (3).csv",stringsAsFactors=FALSE)
reviews4 <- read.csv("Evo-USA-Oct-Nov-141-160 - Copy (4).csv",stringsAsFactors=FALSE)
reviews5 <- read.csv("Evo-USA-Oct-Nov-141-160 - Copy (5).csv",stringsAsFactors=FALSE)
filenames <- list.files('C:\\Users\\900369\\Documents\\R\\Text Mining\\',"*csv",FALSE,FALSE,FALSE,FALSE,FALSE)

r - R中对多个文件的文本挖掘——挖掘文件中的相似词

0 回答 0

Related

Reference