我希望能做到最清楚。假设我有一个包含 10 个变量的数据集,其中 4 个变量代表我称为 Y 的某种现象。另外 6 个代表我称为 X 的另一种现象。
这些变量(10)中的每一个都包含 37 个单位。这些单位只是我的分析(调查)的受访者。由于所有问题均基于李克特量表,因此它们是定性变量。所有这些的比例都是从 0 到 7,但是缺少答案的地方有“-1”和“-2”值。因此,比例实际上是从 -2 到 7。
我想要做的是计算我的 Y(在这种情况下包含 4 个变量,每个变量有 37 个答案)和我的 X(包含 6 个变量和相同数量的受访者)之间的回归。我知道对于定性分析,我应该使用 Anova 而不是回归,尽管我在某处读到甚至可以进行回归。
到目前为止,我一直试图以这种方式行事:
> apply(Y, 1, function(Y) mean(Y[Y>0])) #calculate the average per rows (respondents) without considering the negative values
> Y.reg<- c(apply(Y, 1, function(Y) mean(Y[Y>0]))) #create the vector Y, thus it results like 1 variable with 37 numbers
> apply(X, 1, function(X) mean(X[X>0]))
> X.reg<- c(apply(X, 1, function(X) mean(X[X>0]))) #create the vector X, thus it results like 1 variable with 37 numbers
> reg1<- lm(Y.reg~ X.reg) #make the first regression
> summary(reg1) #see the results
Call:
lm(formula = Y.reg ~ X.reg)
Residuals:
Min 1Q Median 3Q Max
-2.26183 -0.49434 -0.02658 0.37260 2.08899
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.2577 0.4986 8.539 4.46e-10 ***
X.reg 0.1008 0.1282 0.786 0.437
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.7827 on 35 degrees of freedom
Multiple R-squared: 0.01736, Adjusted R-squared: -0.01072
F-statistic: 0.6182 on 1 and 35 DF, p-value: 0.437
但是正如你所看到的,虽然我不使用由 4 个变量组成的 Y 和由 6 个组成的 X,并且我也不考虑负值,但我的 R^2 得分非常低。
如果我改为使用方差分析,我会遇到这个问题:
> Ymatrix<- as.matrix(Y)
> Xmatrix<- as.matrix(X) #where both this Y and X are in their first form, thus composed by more variables (4 and 6) and with negative values as well.
> Errore in UseMethod("anova") :
no applicable method for 'anova' applied to an object of class "c('matrix', 'integer', 'numeric')"
老实说,几天前我成功使用了anova,但不幸的是我不记得如何并且我没有将命令保存在任何地方。
我想知道的是:
- 首先,我处理问题的方式错了吗?
- 您如何看待回归输出?
- 最后,我该怎么做才能制作方差分析?如果我必须这样做。