cluster-analysis - 对纬度/经度对使用自定义距离度量进行聚类

Question

我正在尝试为 scikit-learn DBSCAN 实现指定一个自定义聚类函数：

def geodistance(latLngA, latLngB):
    print latLngA, latLngB
    return vincenty(latLngA, latLngB).miles

cluster_labels = DBSCAN(
            eps=500,
            min_samples=max(2, len(found_geopoints)/10),
            metric=geodistance
).fit(np.array(found_geopoints)).labels_

但是，当我打印出距离函数的参数时，它们根本不是我所期望的：

[ 0.53084126  0.19584111  0.99640966  0.88013373  0.33753788  0.79983037
  0.71716144  0.85832664  0.63559538  0.23032912]
[ 0.53084126  0.19584111  0.99640966  0.88013373  0.33753788  0.79983037
  0.71716144  0.85832664  0.63559538  0.23032912]

这就是我的 found_geopoints 数组的样子：

[[  4.24680600e+01   1.40868060e+02]
 [ -2.97677600e+01  -6.20477000e+01]
 [  3.97550400e+01   2.90069000e+00]
 [  4.21144200e+01   1.43442500e+01]
 [  8.56111000e+00   1.24771390e+02]
...

那么为什么不是距离函数纬度经度对的参数呢？

score 4 · Accepted Answer

我似乎找到了一个解决方法，我使用以下方法计算距离矩阵： http ://scikit-learn.org/stable/modules/generated/sklearn.metrics.pairwise.pairwise_distances.html 然后将其用作参数DBSCAN(metric='precomputed').fit(distance_matrix)

score 1 · Accepted Answer

您可以使用 scikit-learn 做到这一点：使用具有球树算法的半正弦度量，并将弧度单位传递给 DBSCAN 拟合方法。

本教程演示了如何使用 scikit-learn 的 DBSCAN 对空间 lat-long 数据进行聚类，使用 hasrsine 度量基于 lat-long 点之间的准确测地距离进行聚类：

df = pd.read_csv('gps.csv')
coords = df.as_matrix(columns=['lat', 'lon'])
db = DBSCAN(eps=eps, min_samples=ms, algorithm='ball_tree', metric='haversine').fit(np.radians(coords))

请注意，坐标.fit()以弧度单位传递给方法，并且 epsilon 参数值也必须以弧度单位为单位。

如果您希望 epsilon 为 1.5 公里，那么以弧度为单位的 epsilon 参数值将 = 1.5/6371。

cluster-analysis - 对纬度/经度对使用自定义距离度量进行聚类

2 回答 2

Related

Reference