0

我有一些统计数据。一些数据非常分散到大多数数据集,如下所示。我要做的是尽量减少数据集中高度分散的数据的影响。我想计算在我的案例中分散数据的影响最小的数据集的平均值。

My data set is as like this:
10.02, 11, 9.12, 7.89, 10.5, 11.3, 10.9, 12, 8.99, 89.23, 328.42.

如下图所示: 一个数据分散如下图(比方说)

我需要不是 46.3 但更接近其他数据分布的平均值。实际上,我想最小化 89.23 & 328.42 在平均计算中的影响。提前致谢

4

2 回答 2

2

你可能会注意到你真的不想要平均值。这里的问题是您为数据假设的分布与实际数据不同。如果您试图对这些数据进行正态分布拟合,您将得到不好的结果。您可以尝试将像柯西这样的重尾分布拟合到这些数据中。如果要使用正态分布,则需要过滤掉非正态样本。如果您觉得自己知道标准差应该是多少,则可以从上面的样本中删除所有内容,例如与平均值相差 3 个标准差(数字 3 必须取决于样本大小)。可以递归地完成此过程以删除非正常样本,直到您对标准偏差方面的异常值大小感到满意为止。

于 2012-08-15T15:34:26.173 回答
2

不幸的是,一组数据的平均值就是——平均值。你确定这个点实际上是一个异常值吗?您的数据包含关于聚类的单个异常值,但如果您查看您的图,您会发现这些数据似乎确实具有线性关系,所以它真的是异常值吗?

如果这个读数真的给你带来了问题,你可以完全删除它。除此之外,我唯一可以建议您的是计算某种加权平均值而不是真实平均值http://en.wikipedia.org/wiki/Weighted_mean。这样,您可以在计算平均值时为该点分配较低的权重(尽管如何选择权重值是另一回事)。这类似于加权回归,其中特定数据点与回归拟合相关的权重较小(例如,可能由于某些点的不可靠性)http://en.wikipedia.org/wiki/Linear_least_squares_ (mathematics)#Weighted_linear_least_squares 。

希望这会有所帮助,或者至少为您提供一些可以尝试追求的其他途径的指示。

于 2012-08-15T16:09:56.527 回答