问题标签 [outliers]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1821 浏览

c++ - 测试opencv warpAffine异常值的数量

我正在使用 opencv 来估计两个图像之间的仿射变换(我们称之为 A 和 B,我想从 A 估计到 B),我需要实现 RANSAC 以获得可能的最佳估计。到目前为止,我的 RANSAC 框架(考虑到我已经有了两个图像的关键点以及它们之间的匹配):

1:选择3个随机匹配,将A和B的匹配点作为getAffineTransform函数的输入;

2:使用函数warpAffine对A的点进行warp,并将结果与​​B的点进行比较,得到异常值率:e;

3:考虑到我的样本大小是 3 个点(getAffineTransform 需要 3 个点才能找到变换),并且我有异常值 e 的比率,我可以找到我需要运行 RANSAC 的次数才能找到一个很高的概率好的估计,是N次;

4:重新运行第 1 步和第 2 步 N 次,保持具有最小异常值率的变换;

虽然基本的想法似乎很好,但我在执行时遇到了一些问题,特别是第 2 步。我的问题是,我不确定如何测试异常值的数量。我考虑过使用 warpAffine 将 A 的点映射到 B,但我几乎可以肯定它不会起作用,因为我相信该函数会解释我的点垫(这是一个 Mx2 垫,M 是点数,每个将点的坐标 x 和 y 列为图像,而不是我要映射的一组点。我怎样才能做到这一点?

我正在使用带有 c++ 的 opencv 2.4.2。

0 投票
2 回答
641 浏览

ruby-on-rails - 如何从 Rails 中的 ActiveRecord 查询中删除异常值

好的,所以场景是这样的:

我问一个问题“你每周在食物上花多少钱?”

在指定数量的贡献后,假设 100 我想扫描结果,并找到明显的虚假结果。所以说平均值是 80 英镑,但是一些 numty 投入了 1 的价值,而其他人投入了 10,000 英镑。

要求是不对输入的数据进行验证,而是动态分析数据并确定数据的有效范围,在数据库的统计更新期间从结果中剔除异常值。

使用 Rails 3.2、ActiveRecord 和 Postgresql 实现这一目标的最佳方法是什么?

0 投票
5 回答
4772 浏览

r - 如何告诉 R 从相关计算中删除异常值?

在计算相关性时,如何告诉 R 删除异常值?我从散点图中确定了一个潜在的异常值,并试图比较有无此值的相关性。这是介绍统计课程;我只是在使用这些数据来开始了解相关性和异常值。

我的数据如下所示:

以此类推,26行数据。我试图找到第一个和第二个数字的相关性。

确实读过这个问题,但是,我只是想删除一个点,而不是百分比。R中有一个命令可以做到这一点吗?

0 投票
3 回答
3547 浏览

r - 单变量异常值检测

这次我不会像以前在我的一个问题中那样直接询问如何检测异常值。我确实阅读了一些与该主题相关的帖子,但没有得到我需要的东西。我有一组值,如下所示:

现在,正如大多数研究人员所说,异常值检测过程不仅取决于数据,还取决于上下文。我使用了 R 中的几个包,例如异常值(grubbs 测试)、极值、mvoutlier(pcout 方法),但找不到使用它们的最佳方法。在这种情况下(取决于我的要求),7.77(obs no 31)、7.92(obs on 20)和 3.50(obs no 6)是异常值。使用异常值包的 grubbs 测试,我可以将 7.77 和 7.92 检测为异常值,但不能检测到 3.50。我不知道我是否可以在此处发布我的数据图,但在查看图上数据的趋势或分布后,观察号 6 将是明显的异常值。

我正在尝试为这些数据拟合一个非线性模型,但是由于这些异常值,我找不到最佳拟合(最佳拟合不是唯一的要求),无论如何我需要检测这些异常值,因为我将拟合一个单独的对这些异常值进行建模。

我的问题很简单。是否有可能我可以使用一些标准包检测这 3 个异常值,或者如何使用我的非线性生成模型来帮助检测这些异常值?

最好的祝福

沙赫扎德

在此处输入图像描述

0 投票
4 回答
30131 浏览

r - 如何用R中的第5个和第95个百分位值替换异常值

我想分别用这些百分位值替换我相对较大的R数据集中的所有值,这些值的值高于第 95 个百分位和低于第 5 个百分位。我的目标是避免简单地从数据中完全裁剪这些异常值。

任何建议将不胜感激,我在其他任何地方都找不到有关如何执行此操作的任何信息。

0 投票
1 回答
559 浏览

r - 如何用前面和后面的数据点平均 R 数据集中的异常值?

我有一个大型数据集,并将异常值定义为高于 99 或低于第 1 个百分位数的值。

我想用它们之前和之后的数据点来取这些异常值的平均值,然后用新数据集中的平均值替换所有 3 个值。

如果有人知道如何做到这一点,我将非常感谢您的回复。

0 投票
2 回答
3821 浏览

r - 从数据框中提取具有最高和最低值的行

我对 R 很陌生,我主要使用它来使用ggplot2库来可视化统计数据。现在我遇到了数据准备的问题。

我需要编写一个函数,它将从数据框中删除一些(2、5 或 10)行,这些​​行在指定列中具有最高和最低值,并将它们放入另一个数据框中,并对两个因素的每个组合执行此操作(在我的情况下:每天和服务器)。

到目前为止,我已经完成了以下步骤(MWE 使用esoph示例数据集)。

我已经根据所需的参数(ncontrols例如)对框架进行了排序:

我可以显示每个因子值的第一个/最后一个记录(在此示例中为每个年龄范围):

所以基本上,我可以看到最高和最低值,但我不知道如何将它们提取到另一个数据框中以及如何将它们从主要数据框中删除。

同样在上面的示例中,我可以看到一个因素(年龄范围)的每个值的最高/最低记录,但实际上我需要知道两个因素的每个值的最高和最低记录——在这个例子中,它们可能是agegpalcgp

我什至不确定上述这些步骤是否可行 - 也许使用plyr会更好?我会很感激任何提示。

0 投票
2 回答
2310 浏览

r - 带有 rm.outlier 函数的 data.frame 错误

我有一个数据框 1488 obs。和400 var。我正在尝试记录表中的所有值,然后通过命令 rm.outlier 使用包异常值,我很想删除异常值。唯一的问题是我收到此错误:

这是我的代码:

我的数据: https ://skydrive.live.com/redir?resid=CEC7696F3B5BFBC6!341&authkey=!APiwy6qasD3-yGo

谢谢你的帮助

0 投票
1 回答
2408 浏览

r - 访问 lme 图中的异常值 id

我在 r 中绘制一个 lme fit 对象并在图表上显示异常值 id(studyID),但我想通过在绘图对象中查找它们来自动访问这些 ID。我无法弄清楚如何做到这一点。我正在做很多分析,因此能够自动执行此操作而不是实际查看每个图表中的异常值 id 编号会有所帮助。

这是我正在做的一个简化示例:

我想要做的是访问 plotObject 的某些属性,该属性存储用于识别图表中由 plot 语句产生的异常值的 ID 号。

谢谢你。

0 投票
2 回答
17167 浏览

matlab - 从 k-mean 聚类中去除异常值

我有一些较小的数据集,每个包含 10 个 XY 坐标。我正在使用 Matlab (R2012a) 和 k-means 来获得质心。在一些集群中(见下图),我可以看到一些极值点,因为我的数据集和它们一样小,一个大纲破坏了我的质心的值。有没有一种简单的方法可以排除这些点?假设Matlab有一个“排除异常值”功能,但我在工具菜单的任何地方都看不到它。谢谢你的帮助!(是的,我对此很陌生:-)

在此处输入图像描述