r - 来自一组多重共线性变量的潜在变量

Question

我有一个由连续的、非正态分布的观察组成的环境数据集。我的目标是从测量的 5 个变量中构造一个潜在变量。这个结构背后的理论似乎是合理的，但我坚持将这个想法正式化。

这 5 个变量是强相关的（双变量相关性 0.75-.95），据我所知，这是结构方程建模的问题吗？我已经尝试使用 R 中的“lavaan”包进行 SEM，但我无处可去。那么我应该坚持使用 SEM 并尝试迭代模型，还是应该使用其他方法？

score 0 · Accepted Answer

由于您只假设一个潜在变量，我会说因子分析更适合您的情况。您可以使用该R功能factanal。

score 0 · Accepted Answer

确实更多的是统计问题而不是 R 问题，但是...

考虑主成分分析，它将一组相关变量转换为一组新的不相关（正交）变量（主成分，PC）。通常情况下，少数 PC 几乎可以解释原始数据集中的所有可变性。使用 R 中的内置iris数据集：

data <- iris[,1:4]                      # iris dataset, excluding species column
pca  <- prcomp(data,retx=T, scale.=T)   # principal components analysis
PC   <- pca$x                           # the principal components
summary(pca)

产生这个：

Importance of components:
                          PC1    PC2     PC3     PC4
Standard deviation     1.7084 0.9560 0.38309 0.14393
Proportion of Variance 0.7296 0.2285 0.03669 0.00518
Cumulative Proportion  0.7296 0.9581 0.99482 1.00000

因此，第一个主成分 PC1 解释了数据集中 73% 的变异，前两个（PC1 和 PC2）共同解释了 96% 的变异。

编辑：在下面回复@erska 的评论/问题：

cor(data,PC)

产生这个：

                    PC1         PC2         PC3         PC4
Sepal.Length  0.8901688 -0.36082989  0.27565767  0.03760602
Sepal.Width  -0.4601427 -0.88271627 -0.09361987 -0.01777631
Petal.Length  0.9915552 -0.02341519 -0.05444699 -0.11534978
Petal.Width   0.9649790 -0.06399985 -0.24298265  0.07535950

这表明与、和PC1高度相关Sepal.Length，与中度负相关。与任何事物的相关性都不高，这并不奇怪，因为它主要由随机变化组成。这是 PCA 中的典型模式。Petal.LengthPetal.WidthSepal.WidthPC4

我认为对 PCA 的工作方式可能存在误解。例如，如果您的原始数据集中有变量，则根据定义n，PCA将识别主成分，按解释的可变性分数排序（因此，PC1 解释了最大的可变性等）。您可以告诉算法要报告多少个（例如，只报告 PC1，或 PC1 和 PC2 等），但计算始终会产生PC。nn

r - 来自一组多重共线性变量的潜在变量

2 回答 2

Related

Reference