controls - Mahout 的综合控制数据示例

翻译自：https://stackoverflow.com/questions/15202876 2013-03-04T13:39:14.353

466 次

Mahout 的 wiki 包含一个在合成控制数据上使用集群的示例（此处）。

该示例包含一个数据样本，其中包含 100 行数据，用于数据中的 6 个模式中的每一个。当我运行示例代码时，我期望某些聚类方法会提供更好或更差的聚类，但它们或多或少会提供对 6 种模式进行分组的聚类。

这根本不是我在运行示例时看到的。作为初学者，这非常令人困惑。此外，由于数据未标准化且循环数据的周期不匹配，因此很难看出这些原始数据如何正确聚类。

我错过了什么吗？一个更有经验的 Mahout-er 能否为人们在这个特定示例中的预期提供一些指导？

我对可以对时间序列数据中的模式进行聚类的场景非常感兴趣。我尝试对数据进行规范化并使用点对点增量作为聚类的基础，并获得了稍微好一点的结果。更有经验的数据分析师是否对更好的方法有建议？

0 回答 0