我有一个点数据集;
lat |long | time
34.53 -126.34 1
34.52 -126.32 2
34.51 -126.31 3
34.54 -126.36 4
34.59 -126.28 5
34.63 -126.14 6
34.70 -126.05 7
...
(更大的数据集,但这是一般结构。)
我想根据距离和时间对点进行聚类。DBSCAN 似乎是一个不错的选择,因为我不知道有多少集群。
我目前正在使用分钟/5500(我相信,它大约是 20 米,按比例缩放。)
library(fpc)
results<-dbscan(data,MinPts=3,eps=0.00045,method="raw",scale=FALSE,showplot=1)
由于我有原始数据,因此我无法理解如何确定缩放/距离。我可以猜测缩放或未缩放时的 eps 值,但我不清楚缩放是做什么的,或者正在使用什么距离度量(也许是欧几里德距离?)在某处是否有相关文档?
(这不是要找到一种自动选择方法,(例如为 DBSCAN (R) 选择 eps 和 minpts?),而是关于不同值的含义。说“您首先需要一个距离函数”并不能解释距离函数是什么正在使用的是,或者如何创建一个......)