我是数据挖掘领域的初学者,想对我的电影数据集进行聚类以查找流派组。我的数据集中有 86 部电影的 26 种不同类型。我想使用聚类将我的电影分成几个类型而不是 26 个。因此,例如在运行一些聚类算法之后,我将剩下 4 个聚类或任何最适合我的数据集的小数量。我已经将我的数据集定义如下 M1 { G1,G2,.....G26} M2{G1,G2,.....G26} 其中每个流派 G1,....,G26 都可以保存值0 或 1,0 表示不存在,1 表示存在。现在我的下一步是在上面运行 k-means 集群,我想使用一个好的距离函数,例如 Pearson Correlation Coefficient。
我正在使用 MATLAB 进行实验。我尝试使用 k=3,4,5,6 做 k-Means 我还运行了层次聚类。
我不确定如何确定哪些聚类结果更好。如何检查?由于我是初学者,我不知道如何在 MATLAB 中为二进制特征绘制集群。此外,我不知道如何使用皮尔逊相关系数作为 k-Means 中的距离度量。请帮忙。