我根据三年观察的空气质量数据创建了以下图表,并想知道这些斜率在两个时间段(2018 年 3 月至 2019 年 3 月至 6 月的平均值与 2020 年 3 月至 6 月的平均值)是否不同:
该图是使用以下代码制作的:
Lockdown_Period_plot_weekday <- ggplot(COVID_NO2_weekday_avgs_Rathmines, aes(x = Date_1, y = avg_daily_Rath_NO2, color = Period, shape = Period)) +
geom_smooth(method="lm", se = FALSE) +
geom_point(size=2) +
theme_bw() +
labs(x = 'Date',
y = 'Daily Avg [NO2] µg/m^3',
title = 'Weekday NO2 Trends During Lockdown',
subtitle = 'Rathmines AQ Station')
我知道我需要首先消除序列相关的影响(因为自变量是时间序列),但我不确定如何做到这一点。我应该使用该date
列吗?或者我应该使用虚拟列Date_2
来做到这一点?此列只是Month.Date
用于创建一系列数字和连续的 x 值的串联。
我使用该gls()
函数来执行此操作,并且相信我已将该date
列指定为我的序列相关。
我的尝试显示在这里:
library(nlme)
m <- gls(avg_daily_Rath_NO2 ~ Period,
data=COVID_NO2_weekday_avgs_Rathmines,
correlation=corARMA(p=1, q=0, form=~date))
summary(m)
输出:
Generalized least squares fit by REML
Model: avg_daily_Rath_NO2 ~ Period
Data: COVID_NO2_weekday_avgs_Rathmines
Correlation Structure: ARMA(1,0)
Formula: ~date
Parameter estimate(s):
Phi1
0.6066636
Coefficients:
Correlation:
(Intr)
PeriodMarch-June 2020 -0.569
Standardized residuals:
Min Q1 Med Q3
-1.8573362 -0.6487672 -0.1588551 0.5597100
Max
3.4017470
Residual standard error: 10.46725
Degrees of freedom: 256 total; 254 residual
当谈到线性回归输出时,我有点生疏,不知道如何解释这个。
此外,我想检查我的模型结构是否正确,以实现我想要的输出。
对此的任何帮助将不胜感激。
-TL;博士-
- 我想在两条线上运行 ANCOVA,以确定
Period
变量的斜率是否不同。 - 我想消除序列相关的影响,因为自变量是时间序列。
实现这一目标的最有效方法是什么?
如有必要,可以提供更多信息。