text-mining - 为什么在 R 中挖掘的文本集群变得模糊？

Question

问题：为什么文本挖掘数据的集群树状图变得模糊/混乱（参见下图的链接）？

简介：我首先从 Mongo 数据库中收集了大约 5500 篇电子扫描文章的原始数据，并作为 Json 对象保存在磁盘驱动器中（此处未显示 ode，使用 R 的 Cran Mongolite 包收集）。这里显示的是标准文本处理（使用 Cran TM 包）来清理“the”、“and”、“ing”、“;”、“:”等）。这导致了随后的层次聚类，看起来很模糊/混乱，因为 Json 对象中的一些单词是非常长的字母组合，而不是可以单独识别的真实单词。

调用两个库

library("tm")
library ("SnowballC")

创建数据路径和文本语料库

cname <- file.path("C:", "texts")
docs <- Corpus(DirSource(cname))

处理文本

docs <- tm_map(docs, removePunctuation) 
docs <- tm_map(docs, removeNumbers)
docs <- tm_map(docs, removeWords, stopwords("english"))
docs <- tm_map(docs, stripWhitespace)
docs <- tm_map(docs, stemDocument)
tdm <- TermDocumentMatrix(docs)

第三，通过树状图进行聚类

d<-dist(tdm,method = "euclidean")
hc<-hclust(d, method="ward.D2")
library("rafalib")
myplclust(hc, labels=hc$labels)

图片链接： 聚类/树状图/文本挖掘

score 0 · Accepted Answer

答案是减少频率较低的单词，而不仅仅是我已经完成的标准停用词（请参阅下面的代码中我如何剪切它们）

mystopwords <- findFreqTerms(tdm, 1, 20) mystpwrds <- paste(mystopwords, collapse = "|") tdm <- tdm[tdm$dimnames$Terms[!grepl(mystpwrds,tdm$dimnames$Terms)],]

完整的图片和代码在这里发布：

http://rpubs.com/antonyama/180574

text-mining - 为什么在 R 中挖掘的文本集群变得模糊？

1 回答 1

Related

Reference