parameters - SSAS 聚类算法结果随相同输入而变化

Question

我对数据挖掘和统计很陌生。

我在 Visual Studio 中构建了一个数据挖掘模型。我正在使用 Microsoft 聚类算法，但遇到了一些问题。

我修改了一些默认参数，例如将最大输入参数设置为 350，将聚类方法设置为不可扩展的期望最大化（我有 80 000 行数据）。此外，我将集群计数设置为 0，以便算法选择最佳的。

问题来了。我正在使用 tempdb，每次我重新启动我的电脑时都会刷新它（我没有很多可用空间，所以 tempdb 是那个部门的一个不错的选择）。无论如何，当我重新加载相同的数据并构建挖掘结构时，我会得到完全不同的结果。有一次我得到了 10 个集群，然后是 13 个，然后是 9 个。我还尝试将集群计数强制为 13 以重现相同的集群，但它们也不同（集群本身的分布和大小不同）。

我的问题是为什么？EM不是确定性的。我了解大小和分布的微小变化，但每次刷新数据库时都会得到不同的结果。算法不应该给我几乎相同的结果，而不是非常不同的结果。难道我做错了什么？

score 1 · Accepted Answer

EM（高斯混合建模）就像 k-means 通常随机初始化。

所以不是，它不是确定性的，得到不同的结果是正常的。

parameters - SSAS 聚类算法结果随相同输入而变化

1 回答 1

Related

Reference