-1

我想用 R 语言(编码)对我的数据(kmeans 或 hclust)进行聚类。我的数据是有序的,这意味着数据是李克特量表来衡量成本上升的原因(我有 41 个原因“变量”),范围从 1 到 5,其中 1 是无影响到 5 主要影响(我有大约 160观察“谁对原因进行排名”)......关于如何根据观察对 41 个原因进行聚类的任何帮助......我是否必须在聚类或任何有帮助的东西之前将比例转换为百分比或 z 分数...... .. 我真的需要你的帮助!!这是要使用的数据 https://docs.google.com/spreadsheet/ccc?key=0AlrR2eXjV8nXdGtLdlYzVk01cE96Rzg2NzRpbEZjUFE&usp=sharing

我想根据观察中出现的相似性对变量(列)进行聚类……我遵循 statmethods.net/advstats/cluster.html 中的代码;但我无法根据观察中出现的相似性对变量(列)进行聚类,并且我遵循 mattpeeples.net/kmeans.html#help 上的工作;但我不知道他为什么将数据转换为百分比,然后转换为 Z-score 标准化。

4

2 回答 2

4

我不清楚您是想根据变量中的相似性对行(观察)进行聚类,还是根据观察中出现的相似性对变量(列)进行聚类?

无论如何,请参阅 package cluster。这是所有 R 安装随附的推荐软件包。

阅读?daisy有关如何处理序数数据的详细信息。该度量可用于诸如agnes(用于层次聚类)或pam(用于对中心点进行分区,更强大的k均值版本)等功能。

默认情况下,这些将聚集行/观察。t()如果要对列(变量)进行聚类,只需使用转置数据对象。尽管这可能会根据您存储数据的方式而弄乱数据。

于 2013-04-17T03:27:37.463 回答
0

将数据转换为百分比称为数据归一化,因此所有变量都在 0 - 1 的范围内。

如果数据未标准化,您可能会偏向具有较大值的维度

于 2014-01-09T08:55:28.663 回答