问题标签 [outliers]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
14754 浏览

python - 从 matplotlib 中查找异常点:箱线图

我正在使用 boxplot 绘制非正态分布,并且有兴趣使用 matplotlib 的 boxplot 函数找出异常值。

除了绘图之外,我还有兴趣找出代码中点的值,这些点在箱线图中显示为异常值。有什么方法可以从箱线图对象中提取这些值以在我的下游代码中使用?

0 投票
1 回答
5083 浏览

r - 忽略ggplot2 boxplot + faceting +“免费”选项中的异常值

如何调整我的 Y 轴以忽略异常值,就像在这篇文章中一样,但在更具挑战性的情况下,我有 4 个箱线图和“自由刻面”布局?

p <- ggplot(molten.DF,aes(x=class,y=SOC,fill=class)) + geom_boxplot() + facet_grid(layer~.,scales="free",space="free")

正如您在我的图上看到的,考虑 Y 轴范围内的异常值会使这些框更难阅读。如果结果中仍然可以看到一些异常值并不重要,但我想真正关注盒子!

自由比例的箱线图,所有异常值(不幸)都是可见的

0 投票
2 回答
257 浏览

r - 少数异常值未删除

我正在处理由异常值组成的大量数据。该代码适用于大多数数据集,但不适用于少数数据。

此示例数据:

我的代码是:

这将用 NA 替换异常值。现在在这种情况下,100 被删除,但 50 没有被删除。我的数据集也发生了同样的事情。我不知道为什么。我希望得到这方面的帮助。

感谢您的阅读。

0 投票
3 回答
29109 浏览

r - 如何识别 R 箱线图中异常值的标签?

R boxplot 函数是查看数据的一种非常有用的方法:它可以快速为您提供数据的大致位置和方差以及异常值数量的可视化摘要。另外,我想识别异常值,以便快速发现数据集中的问题。

可以使用 访问这些异常值的值myplot$out。不幸的是,这些异常值的标签似乎不可用。有一些包旨在在绘图本身上显示标签:http ://www.r-statistics.com/2011/01/how-to-label-all-the-outliers-in-a-boxplot/ ,但是它们效果不佳,我只想列出这些异常值,我不需要它们出现在情节本身上。

有任何想法吗?

0 投票
3 回答
1761 浏览

algorithm - 从小二值图像中去除异常像素

我目前正在实施一种算法,用于识别有色质量的最小惯性轴(由二阶矩提供)。为了做到这一点,我需要获得第一时刻给出的质心。

加权平均功能效果很好,但由于异常像素,我收到了不想要的结果。

这里是平均函数:

(例如 x 的加权平均值)

质心不正确

给定这样的图像,它仅由两种颜色(背景和前景)表示,我如何去除边缘像素?注意:外围像素是指不属于大色块的任何东西。白点是计算的质心,这是不正确的。

非常感激。

0 投票
1 回答
6643 浏览

matlab - 99.7 覆盖率的箱线图中的胡须值

我正在尝试使用 MATLAB 从箱线图中识别异常值。该函数的默认晶须值为 1.5,可提供 +- 2.7*sigma 或 99.3 的覆盖率。但是,我想要 99.7 或 3*sigma 覆盖率。在这种情况下,晶须的价值是多少?我不想随意猜测,所以需要你们的帮助。谢谢

0 投票
5 回答
54788 浏览

python - matplotlib:绘图时忽略异常值

我正在绘制来自各种测试的一些数据。有时在测试中我碰巧有一个异常值(比如 0.1),而所有其他值都小三个数量级。

使用 matplotlib,我针对范围进行绘图[0, max_data_value]

我怎样才能放大我的数据而不显示异常值,这会弄乱我的绘图中的 x 轴?

我是否应该简单地取 95 个百分位数并[0, 95_percentile] 在 x 轴上有范围?

0 投票
1 回答
1499 浏览

r - 删除 r 中的异常值

我有大量来自 excel 文件(保存为 csv)的数据,其中包含试验(X)和时间(Y)。我知道有一个代码可以通过使用卡方测试代码在试验中取出单个异常值。但是,我希望能够取出数据集中具有异常值的整个列,同时保持文件中的其他数据不变。我很难找到/想出一个允许这样做的代码。有什么建议吗?!

0 投票
2 回答
1261 浏览

python - 具有非比例 y 轴的箱线图

我有一些数据要进行箱线图。异常值(例如 20、30)离大多数值(例如 0.0002、0.0003)太远,因此我只能在使用 matplotlib 绘图时看到异常值。

无论如何放大中位数周围的值,然后让 y 轴的其余部分不按比例显示异常值吗?

编辑这是我在 python 中的代码。我想为我拥有的每个箱形图使用插入轴,如下所示。我怎样才能以简单的方式做到这一点?文档中的示例似乎有太多参数需要处理。

0 投票
1 回答
3589 浏览

r - 过滤季节性时间序列异常值

我有一些高度季节性的天气相关数据,我想做的是识别一些“异常值”并将这些异常值更改为合理的值(我不想删除它们)。

我正在使用pracma包中的hampel过滤器来识别和纠正这些异常值,但问题是一些季节性峰值被降低了太多。我猜这个函数没有考虑季节性。下图显示了这一点(24 个月的窗口),红线是过滤后的数据。

有没有办法纠正这个问题?换句话说,取“峰值”并在季节之间平均它们?谢谢! 在此处输入图像描述