-1

我有一个称为人均收入的响应变量。它与预测变量、研究期相关联。研究期是一个具有三个水平的因素,其中第一个时期跨越 2008-2009 年,第二个时期跨越 2010-2012 年和第三个时期,2013-2015 年。

我想用这两个变量和其他变量(年龄和性别)在 r 中执行多元线性回归。简而言之,公式是人均收入~学习年限+年龄+性别。

我以两种方式执行回归:

  1. 将学习期视为名义或无序:

lm(PCI ~ factor(STUDY_PERIOD) + AGE + GENDER, data = df)

# Coefficients:
# (Intercept)  factor(STUDY_PERIOD)2  factor(STUDY_PERIOD)3   AGE      GENDERM  
# 356.07       63.15                 112.71                  -1.44     -43.73
  1. 将学习期视为有序的或有序的:
df$STUDY_PERIOD <- ordered(df$STUDY_PERIOD, levels =c(1, 2, 3))  
lm(PCI ~ STUDY_PERIOD + AGE + GENDER, data = df)
    # Coefficients:
    # (Intercept)  STUDY_PERIOD.L  STUDY_PERIOD.Q  AGE    GENDERM  
    # 414.690      79.697          -5.551          -1.440   -43.728

两者都给出了研究期间的不同系数。

我的问题:

  1. 我应该考虑STUDY_PERIOD什么?
  2. 我如何解释这两种情况下的系数?

谢谢!

4

1 回答 1

1

这取决于你问的问题。作为一个因素,您要求 k-1 斜率估计,其中 k = 类别数。第一个估计对比了时期 1 和时期 2,而第二个估计对比了时期 1 和时期 3。

作为一个线性变量(不是序数),您要问“随着时间段的增加,PCI 会增加/减少。这里的斜率是每个周期的增加。

线性最容易解释,但可能会掩盖实际效果。但是,在这里,它可能是线性的,因为因子 (STUDY_PERIOD)3 的估计值大约是因子 (STUDY_PERIOD)2 估计值的两倍。检查的一种方法是只看一个情节。

于 2017-12-05T04:18:58.127 回答