0

我有一个由连续的、非正态分布的观察组成的环境数据集。我的目标是从测量的 5 个变量中构造一个潜在变量。这个结构背后的理论似乎是合理的,但我坚持将这个想法正式化。

这 5 个变量是强相关的(双变量相关性 0.75-.95),据我所知,这是结构方程建模的问题吗?我已经尝试使用 R 中的“lavaan”包进行 SEM,但我无处可去。那么我应该坚持使用 SEM 并尝试迭代模型,还是应该使用其他方法?

4

2 回答 2

0

由于您只假设一个潜在变量,我会说因子分析更适合您的情况。您可以使用该R功能factanal

于 2013-11-29T13:31:39.557 回答
0

确实更多的是统计问题而不是 R 问题,但是...

考虑主成分分析,它将一组相关变量转换为一组新的不相关(正交)变量(主成分,PC)。通常情况下,少数 PC 几乎可以解释原始数据集中的所有可变性。使用 R 中的内置iris数据集:

data <- iris[,1:4]                      # iris dataset, excluding species column
pca  <- prcomp(data,retx=T, scale.=T)   # principal components analysis
PC   <- pca$x                           # the principal components
summary(pca)

产生这个:

Importance of components:
                          PC1    PC2     PC3     PC4
Standard deviation     1.7084 0.9560 0.38309 0.14393
Proportion of Variance 0.7296 0.2285 0.03669 0.00518
Cumulative Proportion  0.7296 0.9581 0.99482 1.00000

因此,第一个主成分 PC1 解释了数据集中 73% 的变异,前两个(PC1 和 PC2)共同解释了 96% 的变异。

编辑:在下面回复@erska 的评论/问题:

cor(data,PC) 

产生这个:

                    PC1         PC2         PC3         PC4
Sepal.Length  0.8901688 -0.36082989  0.27565767  0.03760602
Sepal.Width  -0.4601427 -0.88271627 -0.09361987 -0.01777631
Petal.Length  0.9915552 -0.02341519 -0.05444699 -0.11534978
Petal.Width   0.9649790 -0.06399985 -0.24298265  0.07535950

这表明与 、和PC1高度相关Sepal.Length,与 中度负相关。与任何事物的相关性都不高,这并不奇怪,因为它主要由随机变化组成。这是 PCA 中的典型模式。Petal.LengthPetal.WidthSepal.WidthPC4

我认为对 PCA 的工作方式可能存在误解。例如,如果您的原始数据集中有变量,则根据定义n,PCA将识别主成分,按解释的可变性分数排序(因此,PC1 解释了最大的可变性等)。您可以告诉算法要报告多少个(例如,只报告 PC1,或 PC1 和 PC2 等),但计算始终会产生PC。nn

于 2013-11-29T18:23:33.307 回答