0

问题:为什么文本挖掘数据的集群树状图变得模糊/混乱(参见下图的链接)?

简介:我首先从 Mongo 数据库中收集了大约 5500 篇电子扫描文章的原始数据,并作为 Json 对象保存在磁盘驱动器中(此处未显示 ode,使用 R 的 Cran Mongolite 包收集)。这里显示的是标准文本处理(使用 Cran TM 包)来清理“the”、“and”、“ing”、“;”、“:”等)。这导致了随后的层次聚类,看起来很模糊/混乱,因为 Json 对象中的一些单词是非常长的字母组合,而不是可以单独识别的真实单词。

调用两个库

library("tm")
library ("SnowballC")

创建数据路径和文本语料库

cname <- file.path("C:", "texts")
docs <- Corpus(DirSource(cname))

处理文本

docs <- tm_map(docs, removePunctuation) 
docs <- tm_map(docs, removeNumbers)
docs <- tm_map(docs, removeWords, stopwords("english"))
docs <- tm_map(docs, stripWhitespace)
docs <- tm_map(docs, stemDocument)
tdm <- TermDocumentMatrix(docs)

第三,通过树状图进行聚类

d<-dist(tdm,method = "euclidean")
hc<-hclust(d, method="ward.D2")
library("rafalib")
myplclust(hc, labels=hc$labels)

图片链接: 聚类/树状图/文本挖掘

4

1 回答 1

0

答案是减少频率较低的单词,而不仅仅是我已经完成的标准停用词(请参阅下面的代码中我如何剪切它们)

mystopwords <- findFreqTerms(tdm, 1, 20) mystpwrds <- paste(mystopwords, collapse = "|") tdm <- tdm[tdm$dimnames$Terms[!grepl(mystpwrds,tdm$dimnames$Terms)],]

完整的图片和代码在这里发布:

http://rpubs.com/antonyama/180574

于 2016-05-13T04:39:20.217 回答