-1

我有一些 2D 数据 (x,y),我需要确定在 x 方向上有很多数据点彼此靠近的位置。有 3 个明显的集群,其中所有 x 点都靠得很近,其余数据不属于它们。我打算使用 k-means 聚类算法,但这似乎是为了对所有数据进行聚类,而我只想标记数据中显然是聚类的 3 个聚类数据,并将其余的标记为正常数据。

数据位于单独的 csv 文件中,我对其进行处理,然后读入一个大数据帧。到目前为止,在处理数据时,我已经过滤掉了处理数据超过一定长度的文件,但这显然意味着有时集群的一部分被排除在文件之外或正常数据被排除在外。

4

1 回答 1

1

您可以尝试DBSCAN之类的方法,它允许将点分类为“噪声”,并且似乎是您所追求的。有一个与 scikit 项目相关的分层版本,称为hdbscan

谷歌发现了各种描述 k-means 聚类替代方案的文档。hdbscan文档还对比较替代方案有很好的描述。

于 2019-07-17T21:22:32.137 回答