我目前正在使用 RStudio 对支持票证进行文本挖掘,并通过它们的描述(自由文本)对它们进行聚类。为此,我将 kmeans 与 EM 算法进行了比较。我使用 tm 包准备了数据,现在我尝试将聚类算法应用于数据矩阵。
使用 kmeans() 函数,我可以使用以下代码片段来输出文本簇 (kmeans21) 中最常见的 5 个术语:
> for (i in 1:num_cluster) {
cat(paste("cluster ", i, ": ", sep = ""))
s <- sort(kmeans21$centers[i, ], decreasing = T)
cat(names(s)[1:5], "\n")
}
直到现在,我还没有在 mclust 包中找到一个函数来做同样的事情。我的数据具有以下格式:
> bic21 <- MclustBIC(m1, G=21)
> emmodel21 <- summary(bic21, data = m1)
用命令
> emmodel21$classification
我可以看到每个 supportticket 的集群,但是是否也可以像在 kmeans 的第一个代码块中那样输出最常见的术语?