0

我目前正在使用 RStudio 对支持票证进行文本挖掘,并通过它们的描述(自由文本)对它们进行聚类。为此,我将 kmeans 与 EM 算法进行了比较。我使用 tm 包准备了数据,现在我尝试将聚类算法应用于数据矩阵。

使用 kmeans() 函数,我可以使用以下代码片段来输出文本簇 (kmeans21) 中最常见的 5 个术语:

> for (i in 1:num_cluster) {
     cat(paste("cluster ", i, ": ", sep = ""))
     s <- sort(kmeans21$centers[i, ], decreasing = T)
     cat(names(s)[1:5], "\n")
 }

直到现在,我还没有在 mclust 包中找到一个函数来做同样的事情。我的数据具有以下格式:

> bic21 <- MclustBIC(m1, G=21)
> emmodel21 <- summary(bic21, data = m1)

用命令

> emmodel21$classification

我可以看到每个 supportticket 的集群,但是是否也可以像在 kmeans 的第一个代码块中那样输出最常见的术语?

4

2 回答 2

0

我觉得你可以试试

summary(mod1, parameters = TRUE)

刚刚在链接中尝试了相同的示例

library(mclust)
data(diabetes)
X <- diabetes[,-1]
BIC <- mclustBIC(X)
mod1 <- Mclust(X, x = BIC)
summary(mod1, parameters = TRUE)
于 2018-03-06T10:19:30.667 回答
0

稍微改变小插图中的第一个示例:

data(diabetes)
X <- diabetes[,-1]
mod <- mclust(X)
means <- mod$parameters$means

均值对象现在是一个包含集群均值的矩阵。

于 2018-06-13T18:06:35.690 回答