2

好的,所以你有一些以 [say] 整数数组形式存在的历史数据。例如,这可以表示两年期间服务器 HDD 上的可用空间,每个数组元素代表一个每日样本。

数据(本例中的可用空间)呈下降趋势,但在文件已被删除/压缩等情况下也会出现周期性的正峰值。

您将如何确定两年期间的总体趋势,即:消除数据中的高峰和低谷?

现在,我做了 A-level 统计,然后在我的学位课程中学习了一个统计模块,但从那时起我已经睡了 7000 多次,而且,它已经从我的大脑中泄露出来了。

我不是在写一些这样的代码,更多的是描述你如何解决这个问题......

提前致谢!

4

2 回答 2

7

您会得到许多不同的答案,而您选择的答案实际上取决于您可能有的更具体的要求。例子:

  1. 低通滤波器或任何其他频谱分析技术,并使用低频来确定趋势。

  2. 线性回归(时间/值)找到“r”(时间和值之间的相关性)。

  3. 最后“n”个样本的移动平均值。如果“n”足够大,这是我最喜欢的,因为这已经足够了,而且很容易编码。这是对上面#1 的一种近似。

我相信他们会是其他人。

于 2013-09-06T21:53:39.467 回答
2

如果我这样做是为了通过点生成一条线供我查看,我可能会使用黄土的一些变体,在http://en.wikipedia.org/wiki/Local_regressionhttp://stat.ethz中进行了描述.ch/R-manual和 /R-patched/library/stats/html/loess.html。基本上,您可以通过对该点附近的数据点进行加权回归来找到任何特定点的平滑值,最近的点被赋予最大权重。

于 2013-09-07T05:04:40.700 回答