我有一些 2D 数据 (x,y),我需要确定在 x 方向上有很多数据点彼此靠近的位置。有 3 个明显的集群,其中所有 x 点都靠得很近,其余数据不属于它们。我打算使用 k-means 聚类算法,但这似乎是为了对所有数据进行聚类,而我只想标记数据中显然是聚类的 3 个聚类数据,并将其余的标记为正常数据。
数据位于单独的 csv 文件中,我对其进行处理,然后读入一个大数据帧。到目前为止,在处理数据时,我已经过滤掉了处理数据超过一定长度的文件,但这显然意味着有时集群的一部分被排除在文件之外或正常数据被排除在外。