3

Mahout 的 wiki 包含一个在合成控制数据上使用集群的示例(此处)。

该示例包含一个数据样本,其中包含 100 行数据,用于数据中的 6 个模式中的每一个。当我运行示例代码时,我期望某些聚类方法会提供更好或更差的聚类,但它们或多或少会提供对 6 种模式进行分组的聚类。

这根本不是我在运行示例时看到的。作为初学者,这非常令人困惑。此外,由于数据未标准化且循环数据的周期不匹配,因此很难看出这些原始数据如何正确聚类。

我错过了什么吗?一个更有经验的 Mahout-er 能否为人们在这个特定示例中的预期提供一些指导?

我对可以对时间序列数据中的模式进行聚类的场景非常感兴趣。我尝试对数据进行规范化并使用点对点增量作为聚类的基础,并获得了稍微好一点的结果。更有经验的数据分析师是否对更好的方法有建议?

4

0 回答 0