0

给定一个按年查看人口的简化示例时间序列

Year<-c(2001,2002,2003,2004,2005,2006)
Pop<-c(1,4,7,9,20,21)
DF<-data.frame(Year,Pop)

就年份之间的变化/哪些年份彼此显着不同而言,测试显着性的最佳方法是什么?

4

2 回答 2

6

正如@joran 提到的,这实际上是一个统计问题,而不是一个编程问题。您可以尝试在http://stats.stackexchange.com上询问以获得更多的统计专业知识。

然而,简而言之,两种方法立即浮现在脑海中:

  1. 如果您将回归线拟合到人口与年份并具有统计上显着的斜率,则表明多年来人口存在总体趋势,即lm()在 R 中使用,就像这样lmPop <- lm(Pop ~ Year,data=DF)
  2. 您可以将时间段划分为多个块(例如前三年和最后三年),并假设每个块中年份的人口数据都是该块年份平均人口的估计值。这将为您提供每个年份的总体平均值和标准差,这将使您可以进行 t 检验,如下所示t.test(Pop[1:3],Pop[4:6])

这两种方法都存在一些潜在的困难,每种方法的有效性都取决于您正在检查的数据的性质。然而,对于样本数据,第一种方法表明在 95% 的置信水平(斜率系数 p = 0.00214)似乎存在随时间变化的趋势,而第二种方法表明零假设,即在 95% 置信水平上没有差异在 95% 的置信水平下,均值不能被伪造(p = 0.06332)。

于 2013-02-10T04:39:11.020 回答
5

它们彼此之间都有很大的不同。1 与 4 显着不同,4 与 7 显着不同,依此类推。

等等,这不是你的意思吗?嗯,这就是你给我们的所有信息。作为一名统计学家,我不能再做任何事情了。

所以现在你告诉我们一些别的事情。“是否有任何值与直线显着不同,其中 Pop 值的变化是独立的、均值为 0 且方差相同的正态分布值?” 或者其他的东西。

简单地说,只是一堆数字不能成为统计分析的主题。与统计学家合作,您需要就数据模型达成一致,然后统计方法可以回答有关重要性和不确定性的问题。

我认为这通常是非统计学家无法理解的。他们说“这是我的数字,这很重要吗?” - 这通常意味着将它们输入 SPSS 并得到一个 p 值。

[已将此 Q 标记为转移到它所属的 stats.stackexchange.com]

于 2013-02-10T09:12:43.450 回答