给定一个按年查看人口的简化示例时间序列
Year<-c(2001,2002,2003,2004,2005,2006)
Pop<-c(1,4,7,9,20,21)
DF<-data.frame(Year,Pop)
就年份之间的变化/哪些年份彼此显着不同而言,测试显着性的最佳方法是什么?
给定一个按年查看人口的简化示例时间序列
Year<-c(2001,2002,2003,2004,2005,2006)
Pop<-c(1,4,7,9,20,21)
DF<-data.frame(Year,Pop)
就年份之间的变化/哪些年份彼此显着不同而言,测试显着性的最佳方法是什么?
正如@joran 提到的,这实际上是一个统计问题,而不是一个编程问题。您可以尝试在http://stats.stackexchange.com上询问以获得更多的统计专业知识。
然而,简而言之,两种方法立即浮现在脑海中:
lm()
在 R 中使用,就像这样lmPop <- lm(Pop ~ Year,data=DF)
。t.test(Pop[1:3],Pop[4:6])
:这两种方法都存在一些潜在的困难,每种方法的有效性都取决于您正在检查的数据的性质。然而,对于样本数据,第一种方法表明在 95% 的置信水平(斜率系数 p = 0.00214)似乎存在随时间变化的趋势,而第二种方法表明零假设,即在 95% 置信水平上没有差异在 95% 的置信水平下,均值不能被伪造(p = 0.06332)。
它们彼此之间都有很大的不同。1 与 4 显着不同,4 与 7 显着不同,依此类推。
等等,这不是你的意思吗?嗯,这就是你给我们的所有信息。作为一名统计学家,我不能再做任何事情了。
所以现在你告诉我们一些别的事情。“是否有任何值与直线显着不同,其中 Pop 值的变化是独立的、均值为 0 且方差相同的正态分布值?” 或者其他的东西。
简单地说,只是一堆数字不能成为统计分析的主题。与统计学家合作,您需要就数据模型达成一致,然后统计方法可以回答有关重要性和不确定性的问题。
我认为这通常是非统计学家无法理解的。他们说“这是我的数字,这很重要吗?” - 这通常意味着将它们输入 SPSS 并得到一个 p 值。
[已将此 Q 标记为转移到它所属的 stats.stackexchange.com]