r - 如何识别相似的旅程模式并将它们分组到 R 中？

Question

我正在尝试找到一种方法来相互比较 1000 多个汽车旅程，以便对相似的旅程进行聚类。（最好在 R 中）

在下面的示例中，每一行是一个人在某一天的旅程。

每列代表汽车停止的一个点。不考虑时间，只考虑旅行的顺序。例如 stop1、stop2、stop3 ... stop10

数据将包含 NA，因为并非所有旅程都有 10 个站点。

示例：矩阵（row.names 代表一个独特的人）：

row.names, stop1, stop2, stop3, stop4, stop5, stop6 ... stop10
    1        34     23     16    283     12    453  ...   
    2        34     23     16    283     12    453  ...   
    3        34     23     16    122     12    NA   ...   
    4        62     72     90    11      NA    NA   ...   
    5        62     90     11    NA      NA    NA   ...   
    6        46     39     46    83      73    3    ...

我是聚类的新手，但研究了不同的类型（Kmeans，层次结构）。

我曾尝试使用热图和平行坐标，但它们并没有产生我正在寻找的视觉效果 - 即，看到超过 1000 次以上旅程的组并不容易，而且我认为它不适用于可能类似于的旅程其他。

我希望有人可以帮助提供一个示例，说明他们在哪里有类似的聚类数据并解释它，以便初学者清楚吗？

非常感谢

score 0 · Accepted Answer

您的数据集由位置组成，因此具有地理维度。获取每个点的坐标并绘制它们，而不是仅仅查看数字 ID。这可能比任何简单的聚类都提供更多信息。

或者，如果地理编码不可行，您可以将其视为关联规则（购物篮分析）问题。每个行程代表一个篮子，位置 ID 是每个篮子中的项目。

r - 如何识别相似的旅程模式并将它们分组到 R 中？

1 回答 1

Related

Reference