0

在生成 seaborn violinplots 时获得的内部箱线图(通过指定 inner='box')对于我的实际数据并不准确。请参见下面的示例图。实际数据延伸到细尾的尖端。但是箱线图在小提琴的区域内结束。

假设这些箱线图应该代表四分位数,而不是标准偏差或其他东西,那么它们是不准确的。

我调用 seaborn violinplot 的代码如下。如您所见,我设置了选项cut = 0,这应该意味着小提琴图的尾部根本没有超出我的极端数据,实际上,通过检查我可以看到小提琴的范围是在正确的地方。但我也可以通过检查看到内部箱线图甚至不接近正确。

sns.violinplot(x='Policy', y='LMP', order=cat_order, data=df, inner='box', scale='area', bw=0.2, cut=0, linewidth=0.5, ax =轴)

有没有人知道seaborn在这里做什么?他们是否决定(仅出于箱线图的目的)我的一些数据是异常值,并排除它们?关于如何控制它的任何想法?

在此处输入图像描述

4

1 回答 1

0

好的,我找到了自己问题的答案。虽然我习惯了基于严格四分位数的箱线图,但 Seaborn 使用了另一种(显然很常见)方法,其中箱线图上的框的尖端仅延伸到“四分位距”或 IQR 的 1.5 倍。

有关 Seaborn 箱线图的信息,请参见此处:http: //seaborn.pydata.org/tutorial/categorical.html#distributions-of-observations-within-categories

有关 IQR 的定义,请参见此处: http ://stattrek.com/statistics/dictionary.aspx?definition=Interquartile%20range

于 2017-04-12T12:02:12.630 回答