我有一个看起来像这样的数据框:
days <- c(1,1,1,1,1,1,2,2,2,2,2,2,3,3,3,3,3,3,4,4,4,4,4,4,5,5,5,5,5,5,6,6,6,6,6,6,7,7,7,7,7,7)
values <- c(3,4,5,6,7,8,1,4,5,9,9,10,3,4,7,7,7,10,4,6,6,8,9,9,1,1,2,3,3,6,2,2,3,5,6,6,6,7,7,8,9,9)
df <- data.frame(days,values)
为了识别数据中的信号,我决定应用一个简单的loess
平滑:
loess <- loess(df$values~df$days, span=1)
pred <- predict(loess, loess$x, se=TRUE)
plot(days,values)
lines(loess$x, loess$fitted, col="red", lwd=1.5)
lines(loess$x,pred$fit - qt(0.975,pred$df)*pred$se, lty="dashed", col="blue", lwd=1)
lines(loess$x,pred$fit + qt(0.975,pred$df)*pred$se, lty="dashed", col="blue", lwd=1)
结果(包括置信区间)如下所示:
例如,我看到第 3 天的值比第 5 天更高,但这种差异显着吗?我应该比较每天的置信区间(在这种情况下,重叠),还是应该基于黄土曲线与 CI 的解释(例如,在第 3 天,曲线在第 5 天的置信区间之外)?