0

我有一个非常大的数据表(大约 100.000 个观察值),我想将其用于聚类。由于某些数据是分类数据,我尝试使用“gower distance”,然后使用“ward”方法使用 hclust()。数据本身非常异构,这就是为什么我想对数据进行“预聚类”,然后进行实际的聚类分析。你们有没有人这样做过并且可以指出我正确的方向?我现在不知所措:(使用上述方法,我并没有真正得到有用的集群。谢谢大家,我非常感谢我能得到的每一个提示。

编辑:我认为我并没有真正正确地解释我的问题,所以这是另一个尝试:假设我有一个包含汽车品牌及其一些功能的数据集。在按功能对它们进行聚类之前,我想按品牌对它们进行预聚类。所以所有的宝马,例如都在同一个集群中等等..只有在那之后我才想按特征进行集群,所以我应该得到一个有快车等的集群。有人知道,如何在 R 中做到这一点?这没有描述我的数据集,但也许我现在遇到的问题更清楚了。

4

1 回答 1

0

你应该先从一个样本开始。

一旦您在样本上获得了良好的结果,请尝试在不同的样本上重现它。一旦结果稳定,您可以尝试将算法扩展到整个数据集(也许先尝试加倍),或者您可以训练分类器并预测剩余数据的集群。对于大多数聚类算法,1 个最近邻分类器会非常好。

于 2017-06-08T08:08:36.550 回答