如果要聚类的数据实际上是点(2D(x, y)
或 3D (x, y,z)
),那么选择聚类方法将非常直观。因为我们可以绘制它们并可视化它们,所以我们更清楚哪种聚类方法更合适。
eg1如果我的 2D 数据集是右上角显示的格式,我会知道这K-means
可能不是一个明智的选择,但DBSCAN
似乎是一个更好的主意。
然而,正如scikit-learn 网站所说:
虽然这些例子给出了一些关于算法的直觉,但这种直觉可能不适用于非常高维的数据。
AFAIK,在大多数盗版问题中,我们没有这么简单的数据。最有可能的是,我们有高维元组,它们不能像数据那样可视化。
eg2我希望对一个数据集进行聚类,其中每个数据都表示为一个 4-D tuple <characteristic1, characteristic2, characteristic3, characteristic4>
。我无法在坐标系中可视化它并像以前一样观察它的分布。所以我不能说在这种情况下DBSCAN
优于。K-means
所以我的问题:
对于这样一个“无法可视化”的高维案例,如何选择合适的聚类方法?