我有一个称为人均收入的响应变量。它与预测变量、研究期相关联。研究期是一个具有三个水平的因素,其中第一个时期跨越 2008-2009 年,第二个时期跨越 2010-2012 年和第三个时期,2013-2015 年。
我想用这两个变量和其他变量(年龄和性别)在 r 中执行多元线性回归。简而言之,公式是人均收入~学习年限+年龄+性别。
我以两种方式执行回归:
- 将学习期视为名义或无序:
lm(PCI ~ factor(STUDY_PERIOD) + AGE + GENDER, data = df)
# Coefficients:
# (Intercept) factor(STUDY_PERIOD)2 factor(STUDY_PERIOD)3 AGE GENDERM
# 356.07 63.15 112.71 -1.44 -43.73
- 将学习期视为有序的或有序的:
df$STUDY_PERIOD <- ordered(df$STUDY_PERIOD, levels =c(1, 2, 3)) lm(PCI ~ STUDY_PERIOD + AGE + GENDER, data = df)
# Coefficients:
# (Intercept) STUDY_PERIOD.L STUDY_PERIOD.Q AGE GENDERM
# 414.690 79.697 -5.551 -1.440 -43.728
两者都给出了研究期间的不同系数。
我的问题:
- 我应该考虑
STUDY_PERIOD
什么? - 我如何解释这两种情况下的系数?
谢谢!