0

我正在尝试找到一种方法来相互比较 1000 多个汽车旅程,以便对相似的旅程进行聚类。(最好在 R 中)

在下面的示例中,每一行是一个人在某一天的旅程。

每列代表汽车停止的一个点。不考虑时间,只考虑旅行的顺序。例如 stop1、stop2、stop3 ... stop10

数据将包含 NA,因为并非所有旅程都有 10 个站点。

示例:矩阵(row.names 代表一个独特的人):

row.names, stop1, stop2, stop3, stop4, stop5, stop6 ... stop10
    1        34     23     16    283     12    453  ...   
    2        34     23     16    283     12    453  ...   
    3        34     23     16    122     12    NA   ...   
    4        62     72     90    11      NA    NA   ...   
    5        62     90     11    NA      NA    NA   ...   
    6        46     39     46    83      73    3    ...   

我是聚类的新手,但研究了不同的类型(Kmeans,层次结构)。

我曾尝试使用热图和平行坐标,但它们并没有产生我正在寻找的视觉效果 - 即,看到超过 1000 次以上旅程的组并不容易,而且我认为它不适用于可能类似于的旅程其他。

我希望有人可以帮助提供一个示例,说明他们在哪里有类似的聚类数据并解释它,以便初学者清楚吗?

非常感谢

4

1 回答 1

0

您的数据集由位置组成,因此具有地理维度。获取每个点的坐标并绘制它们,而不是仅仅查看数字 ID。这可能比任何简单的聚类都提供更多信息。


或者,如果地理编码不可行,您可以将其视为关联规则(购物篮分析)问题。每个行程代表一个篮子,位置 ID 是每个篮子中的项目。

于 2013-10-27T14:40:55.433 回答