1

我正在尝试基于 Excel 表在 r 中创建一个树状图,以用于文本挖掘。我有一个大列,每个单元格都有一串文本。我希望树状图的最小分支代表一个单独的单元格,但是当我运行我的脚本时,我会得到整个 excel 文件中每个单词的树状图。我该如何解决?

library(tm)
library(stringi)
library(proxy)
Data <- read.csv(file.choose(),header=TRUE)
docs <- Corpus(VectorSource(Data))

docs[[1]]

docs1 <- tm_map(docs, PlainTextDocument)
docs2 <- tm_map(docs1, stripWhitespace)
docs3 <- tm_map(docs2, removeWords, stopwords("english"))
docs4 <- tm_map(docs3, removePunctuation)
docs5 <- tm_map(docs4, content_transformer(tolower))

docs5[[1]]

TermMatrix <- TermDocumentMatrix(docs5)
docsdissim <- dist(as.matrix(TermMatrix), method = "euclidean")
docsdissim2 <- as.matrix(docsdissim)
docsdissim2

h <- hclust(docsdissim, method = "ward.D2")
4

0 回答 0