我有一组有统计数据的新闻文章,例如:在某天范围内提及该文章的 Twitter 帖子数量。统计值的自然行为是新帖子的数量快速增长,然后随着新闻的老化而减少。
我想知道如何以一定的置信度计算整个数据集的统计数据变化不再显着(例如:< 总帖子的 0.1%)的天数。
您能否提供一些提示在哪里寻找信息和方法?我也很欣赏 Python 中的一些代码示例 :)
我有一组有统计数据的新闻文章,例如:在某天范围内提及该文章的 Twitter 帖子数量。统计值的自然行为是新帖子的数量快速增长,然后随着新闻的老化而减少。
我想知道如何以一定的置信度计算整个数据集的统计数据变化不再显着(例如:< 总帖子的 0.1%)的天数。
您能否提供一些提示在哪里寻找信息和方法?我也很欣赏 Python 中的一些代码示例 :)
这个问题实际上是关于时间序列分析的。由于您对确定分界点感兴趣,因此最好从阅读Control Charts开始。如果您想深入研究统计数据(超出控制图),请查看Change Point Analysis,并查看时间序列中的结构变化。
Python 模块:要在 Python 中执行此分析,NumPy和pandas模块是相关的。statalgo 中的这篇文章将使您在 Python 代码方面走上正轨。(如果您愿意使用 R 进行分析,请考虑 CRAN 包tseries和strucchange。)
SE(统计)中的相关问题:如何检测时间序列数据的变化?
现实生活中的相关例子:在奥萨马·本·拉登死后,对这条新闻如何在 Twitter 上传播进行了大量分析。这篇文章甚至有一个部分专门与您关于停止传播新闻的问题相关。
最后,您还可以考虑在Stats SE 网站上提出这个问题。
希望有帮助。