问题:为什么文本挖掘数据的集群树状图变得模糊/混乱(参见下图的链接)?
简介:我首先从 Mongo 数据库中收集了大约 5500 篇电子扫描文章的原始数据,并作为 Json 对象保存在磁盘驱动器中(此处未显示 ode,使用 R 的 Cran Mongolite 包收集)。这里显示的是标准文本处理(使用 Cran TM 包)来清理“the”、“and”、“ing”、“;”、“:”等)。这导致了随后的层次聚类,看起来很模糊/混乱,因为 Json 对象中的一些单词是非常长的字母组合,而不是可以单独识别的真实单词。
调用两个库
library("tm")
library ("SnowballC")
创建数据路径和文本语料库
cname <- file.path("C:", "texts")
docs <- Corpus(DirSource(cname))
处理文本
docs <- tm_map(docs, removePunctuation)
docs <- tm_map(docs, removeNumbers)
docs <- tm_map(docs, removeWords, stopwords("english"))
docs <- tm_map(docs, stripWhitespace)
docs <- tm_map(docs, stemDocument)
tdm <- TermDocumentMatrix(docs)
第三,通过树状图进行聚类
d<-dist(tdm,method = "euclidean")
hc<-hclust(d, method="ward.D2")
library("rafalib")
myplclust(hc, labels=hc$labels)
图片链接: 聚类/树状图/文本挖掘