我正在尝试找到一种方法来相互比较 1000 多个汽车旅程,以便对相似的旅程进行聚类。(最好在 R 中)
在下面的示例中,每一行是一个人在某一天的旅程。
每列代表汽车停止的一个点。不考虑时间,只考虑旅行的顺序。例如 stop1、stop2、stop3 ... stop10
数据将包含 NA,因为并非所有旅程都有 10 个站点。
示例:矩阵(row.names 代表一个独特的人):
row.names, stop1, stop2, stop3, stop4, stop5, stop6 ... stop10
1 34 23 16 283 12 453 ...
2 34 23 16 283 12 453 ...
3 34 23 16 122 12 NA ...
4 62 72 90 11 NA NA ...
5 62 90 11 NA NA NA ...
6 46 39 46 83 73 3 ...
我是聚类的新手,但研究了不同的类型(Kmeans,层次结构)。
我曾尝试使用热图和平行坐标,但它们并没有产生我正在寻找的视觉效果 - 即,看到超过 1000 次以上旅程的组并不容易,而且我认为它不适用于可能类似于的旅程其他。
我希望有人可以帮助提供一个示例,说明他们在哪里有类似的聚类数据并解释它,以便初学者清楚吗?
非常感谢