我有一组我生成的数据,其中包括提取的质量(嗯,m/z 但不是那么重要)值和时间。我从文件中提取数据,但是,可能会重复测量,这会导致数据集中出现大量冗余。我正在寻找一种方法来对这些进行聚类,以便根据单独的质量相似性或质量和时间的相似性对相关的那些进行分组。
应组合在一起的数据示例如下:
m/z 时间
337.65 1524.6
337.65 1524.6
337.65 1604.3
但是,我无法确定我将拥有多少个集群。有谁知道实现这一目标的有效方法,可能使用简单的距离度量?遗憾的是,我不熟悉聚类算法。