java - 统计数据分析中的分散数据集

Question

我有一些统计数据。一些数据非常分散到大多数数据集，如下所示。我要做的是尽量减少数据集中高度分散的数据的影响。我想计算在我的案例中分散数据的影响最小的数据集的平均值。

My data set is as like this:
10.02, 11, 9.12, 7.89, 10.5, 11.3, 10.9, 12, 8.99, 89.23, 328.42.

如下图所示：一个数据分散如下图（比方说）

我需要不是 46.3 但更接近其他数据分布的平均值。实际上，我想最小化 89.23 & 328.42 在平均计算中的影响。提前致谢

score 2 · Accepted Answer

你可能会注意到你真的不想要平均值。这里的问题是您为数据假设的分布与实际数据不同。如果您试图对这些数据进行正态分布拟合，您将得到不好的结果。您可以尝试将像柯西这样的重尾分布拟合到这些数据中。如果要使用正态分布，则需要过滤掉非正态样本。如果您觉得自己知道标准差应该是多少，则可以从上面的样本中删除所有内容，例如与平均值相差 3 个标准差（数字 3 必须取决于样本大小）。可以递归地完成此过程以删除非正常样本，直到您对标准偏差方面的异常值大小感到满意为止。

score 2 · Accepted Answer

不幸的是，一组数据的平均值就是——平均值。你确定这个点实际上是一个异常值吗？您的数据包含关于聚类的单个异常值，但如果您查看您的图，您会发现这些数据似乎确实具有线性关系，所以它真的是异常值吗？

如果这个读数真的给你带来了问题，你可以完全删除它。除此之外，我唯一可以建议您的是计算某种加权平均值而不是真实平均值http://en.wikipedia.org/wiki/Weighted_mean。这样，您可以在计算平均值时为该点分配较低的权重（尽管如何选择权重值是另一回事）。这类似于加权回归，其中特定数据点与回归拟合相关的权重较小（例如，可能由于某些点的不可靠性）http://en.wikipedia.org/wiki/Linear_least_squares_ (mathematics)#Weighted_linear_least_squares 。

希望这会有所帮助，或者至少为您提供一些可以尝试追求的其他途径的指示。

java - 统计数据分析中的分散数据集

2 回答 2

Related

Reference