1

我需要 pandas 来计算稳健的标准差

我今天在 python 中对电气测量进行异常值分析,并在 pandas 环境中重构代码。我遇到的一个问题是计算标准偏差。如果在计算 std 时总体中存在异常值,则结果值太大并且是由于存在异常值。在我最初的 python 代码中,我编写了稳健的均值标准差函数来返回更正常的总体,以计算异常值限制。请注意,我还使用这个归一化总体来计算偏度和峰度,因为它们受异常值的影响很大。

我一直在研究的是通过使用数据集的 95% 分位数并从那里计算异常值限制来对总体进行标准化。有谁知道 pandas 社区中的其他人是否从事过强大的统计功能。如果没有,我会继续前进。

df["#18.1355"].describe() count 2694.000000 mean 1.808318 std 6.426645 min 0.920686 25% 1.357991 50% 1.521781 75% 1.801604 max 334.196900 名称:float64.1355,dtype

请注意,最大值中的远异常值。

上述测量的归一化总体的标准差约为 0.8

4

1 回答 1

1

这个答案不是特定于熊猫的,但是您是否考虑过使用双权重中方差?(参见实施示例http://docs.astropy.org/en/stable/api/astropy.stats.biweight_midvariance.html

于 2019-05-08T16:00:19.777 回答