我有一个由连续的、非正态分布的观察组成的环境数据集。我的目标是从测量的 5 个变量中构造一个潜在变量。这个结构背后的理论似乎是合理的,但我坚持将这个想法正式化。
这 5 个变量是强相关的(双变量相关性 0.75-.95),据我所知,这是结构方程建模的问题吗?我已经尝试使用 R 中的“lavaan”包进行 SEM,但我无处可去。那么我应该坚持使用 SEM 并尝试迭代模型,还是应该使用其他方法?
我有一个由连续的、非正态分布的观察组成的环境数据集。我的目标是从测量的 5 个变量中构造一个潜在变量。这个结构背后的理论似乎是合理的,但我坚持将这个想法正式化。
这 5 个变量是强相关的(双变量相关性 0.75-.95),据我所知,这是结构方程建模的问题吗?我已经尝试使用 R 中的“lavaan”包进行 SEM,但我无处可去。那么我应该坚持使用 SEM 并尝试迭代模型,还是应该使用其他方法?
由于您只假设一个潜在变量,我会说因子分析更适合您的情况。您可以使用该R
功能factanal
。
确实更多的是统计问题而不是 R 问题,但是...
考虑主成分分析,它将一组相关变量转换为一组新的不相关(正交)变量(主成分,PC)。通常情况下,少数 PC 几乎可以解释原始数据集中的所有可变性。使用 R 中的内置iris
数据集:
data <- iris[,1:4] # iris dataset, excluding species column
pca <- prcomp(data,retx=T, scale.=T) # principal components analysis
PC <- pca$x # the principal components
summary(pca)
产生这个:
Importance of components:
PC1 PC2 PC3 PC4
Standard deviation 1.7084 0.9560 0.38309 0.14393
Proportion of Variance 0.7296 0.2285 0.03669 0.00518
Cumulative Proportion 0.7296 0.9581 0.99482 1.00000
因此,第一个主成分 PC1 解释了数据集中 73% 的变异,前两个(PC1 和 PC2)共同解释了 96% 的变异。
编辑:在下面回复@erska 的评论/问题:
cor(data,PC)
产生这个:
PC1 PC2 PC3 PC4
Sepal.Length 0.8901688 -0.36082989 0.27565767 0.03760602
Sepal.Width -0.4601427 -0.88271627 -0.09361987 -0.01777631
Petal.Length 0.9915552 -0.02341519 -0.05444699 -0.11534978
Petal.Width 0.9649790 -0.06399985 -0.24298265 0.07535950
这表明与 、和PC1
高度相关Sepal.Length
,与 中度负相关。与任何事物的相关性都不高,这并不奇怪,因为它主要由随机变化组成。这是 PCA 中的典型模式。Petal.Length
Petal.Width
Sepal.Width
PC4
我认为对 PCA 的工作方式可能存在误解。例如,如果您的原始数据集中有变量,则根据定义n
,PCA将识别主成分,按解释的可变性分数排序(因此,PC1 解释了最大的可变性等)。您可以告诉算法要报告多少个(例如,只报告 PC1,或 PC1 和 PC2 等),但计算始终会产生PC。n
n