r - 使用 R 测试时间序列中的显着性

Question

给定一个按年查看人口的简化示例时间序列

Year<-c(2001,2002,2003,2004,2005,2006)
Pop<-c(1,4,7,9,20,21)
DF<-data.frame(Year,Pop)

就年份之间的变化/哪些年份彼此显着不同而言，测试显着性的最佳方法是什么？

score 6 · Accepted Answer

正如@joran 提到的，这实际上是一个统计问题，而不是一个编程问题。您可以尝试在http://stats.stackexchange.com上询问以获得更多的统计专业知识。

然而，简而言之，两种方法立即浮现在脑海中：

如果您将回归线拟合到人口与年份并具有统计上显着的斜率，则表明多年来人口存在总体趋势，即lm()在 R 中使用，就像这样lmPop <- lm(Pop ~ Year,data=DF)。
您可以将时间段划分为多个块（例如前三年和最后三年），并假设每个块中年份的人口数据都是该块年份平均人口的估计值。这将为您提供每个年份的总体平均值和标准差，这将使您可以进行 t 检验，如下所示t.test(Pop[1:3],Pop[4:6])：

这两种方法都存在一些潜在的困难，每种方法的有效性都取决于您正在检查的数据的性质。然而，对于样本数据，第一种方法表明在 95% 的置信水平（斜率系数 p = 0.00214）似乎存在随时间变化的趋势，而第二种方法表明零假设，即在 95% 置信水平上没有差异在 95% 的置信水平下，均值不能被伪造（p = 0.06332）。

score 5 · Accepted Answer

它们彼此之间都有很大的不同。1 与 4 显着不同，4 与 7 显着不同，依此类推。

等等，这不是你的意思吗？嗯，这就是你给我们的所有信息。作为一名统计学家，我不能再做任何事情了。

所以现在你告诉我们一些别的事情。“是否有任何值与直线显着不同，其中 Pop 值的变化是独立的、均值为 0 且方差相同的正态分布值？” 或者其他的东西。

简单地说，只是一堆数字不能成为统计分析的主题。与统计学家合作，您需要就数据模型达成一致，然后统计方法可以回答有关重要性和不确定性的问题。

我认为这通常是非统计学家无法理解的。他们说“这是我的数字，这很重要吗？” - 这通常意味着将它们输入 SPSS 并得到一个 p 值。

[已将此 Q 标记为转移到它所属的 stats.stackexchange.com]

r - 使用 R 测试时间序列中的显着性

2 回答 2

Related

Reference