0

因此,我希望将聚类算法应用于美国地质调查局提供的地球数据。

http://earthquake.usgs.gov/earthquakes/feed/

我的主要目标是根据地震信息确定前 10 个最危险的地方(根据地震数量或一个地方经历的地震强度)。

有什么建议吗?我正在查看 k-means,然后只取 k-means 的总和(每个地震震级在每个集群中加权)来查看最危险的集群。

我也在用 ruby​​ 写这个作为代码参考。

谢谢

4

1 回答 1

2

K-means 不能很好地处理数据集中的异常值。

此外,它是围绕方差设计的,但经纬度的方差并没有真正的意义。事实上,k-means 无法处理纬度 +-180° 环绕。相反,您将需要使用大圆距离

因此,请尝试使用基于密度的聚类算法,该算法允许您使用诸如大圆距离之类的距离!

阅读 Wikipedia 和一本关于聚类分析的好书。

于 2013-02-26T20:44:37.710 回答