algorithm - 聚类算法 - 应用于一组地震数据

Question

因此，我希望将聚类算法应用于美国地质调查局提供的地球数据。

我的主要目标是根据地震信息确定前 10 个最危险的地方（根据地震数量或一个地方经历的地震强度）。

有什么建议吗？我正在查看 k-means，然后只取 k-means 的总和（每个地震震级在每个集群中加权）来查看最危险的集群。

我也在用 ruby 写这个作为代码参考。

谢谢

score 2 · Accepted Answer

K-means 不能很好地处理数据集中的异常值。

此外，它是围绕方差设计的，但经纬度的方差并没有真正的意义。事实上，k-means 无法处理纬度 +-180° 环绕。相反，您将需要使用大圆距离。

因此，请尝试使用基于密度的聚类算法，该算法允许您使用诸如大圆距离之类的距离！

阅读 Wikipedia 和一本关于聚类分析的好书。

1 回答 1