r - 聚类序数数据

Question

我想用 R 语言（编码）对我的数据（kmeans 或 hclust）进行聚类。我的数据是有序的，这意味着数据是李克特量表来衡量成本上升的原因（我有 41 个原因“变量”），范围从 1 到 5，其中 1 是无影响到 5 主要影响（我有大约 160观察“谁对原因进行排名”）......关于如何根据观察对 41 个原因进行聚类的任何帮助......我是否必须在聚类或任何有帮助的东西之前将比例转换为百分比或 z 分数...... .. 我真的需要你的帮助！！这是要使用的数据 https://docs.google.com/spreadsheet/ccc?key=0AlrR2eXjV8nXdGtLdlYzVk01cE96Rzg2NzRpbEZjUFE&usp=sharing

我想根据观察中出现的相似性对变量（列）进行聚类……我遵循 statmethods.net/advstats/cluster.html 中的代码；但我无法根据观察中出现的相似性对变量（列）进行聚类，并且我遵循 mattpeeples.net/kmeans.html#help 上的工作；但我不知道他为什么将数据转换为百分比，然后转换为 Z-score 标准化。

score 4 · Accepted Answer

我不清楚您是想根据变量中的相似性对行（观察）进行聚类，还是根据观察中出现的相似性对变量（列）进行聚类？

无论如何，请参阅 package cluster。这是所有 R 安装随附的推荐软件包。

阅读?daisy有关如何处理序数数据的详细信息。该度量可用于诸如agnes（用于层次聚类）或pam（用于对中心点进行分区，更强大的k均值版本）等功能。

默认情况下，这些将聚集行/观察。t()如果要对列（变量）进行聚类，只需使用转置数据对象。尽管这可能会根据您存储数据的方式而弄乱数据。

score 0 · Accepted Answer

将数据转换为百分比称为数据归一化，因此所有变量都在 0 - 1 的范围内。

如果数据未标准化，您可能会偏向具有较大值的维度

r - 聚类序数数据

2 回答 2

Related

Reference