问题标签 [outliers]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1481 浏览

r - 异常值上带有名称的多个箱线图

我有一个看起来像这样的箱线图:

在此处输入图像描述

显示异常值名称是因为我将第一列设置为:

现在我想知道如何制作一个新的多重箱线图。我想在同一张图片上有 2 个箱线图。数据仍在幻灯片数据库中。2列的名称是:

  1. ski_parc (幻灯片$ski_parc)
  2. snow_parc (幻灯片$snow_parc)

我不知道如何将 2 个箱线图放在同一图像上显示:

  • 异常值的名称,例如 2 个箱线图的打印屏幕上的每一个
  • 每个箱线图下箱线图的名称,以便识别它们

编辑:这是我的数据库幻灯片的链接

0 投票
8 回答
541 浏览

algorithm - 快速找到远离牛群的动物的算法

我正在开发一个模拟程序。有成群的动物(角马),在那个畜群中,我需要能够找到一种远离畜群的动物。

在下图中,绿点远离牛群。我希望能够快速找到这些点。

绿点远离牛群

当然,有一个简单的算法可以解决这个问题。计算每个点的邻域中的点数,然后如果该邻域为空(其中为 0 点),则我们知道该点远离牛群。

问题是这个算法根本没有效率。我有一百万个点,在每一百万个点上应用这个算法非常慢

有什么东西会更快吗?也许使用树木?

编辑@amit:我们想避免这种情况。左角的一组绿点会被选中,尽管它们不应该被选中,因为远离牛群的不是单一的动物,而是一群动物。我们只是在寻找远离牛群(而不是一群)的单一动物。

一群远离牛群的绿点

0 投票
2 回答
917 浏览

r - 如何索引异常值?

我有下面的数据。我如何确定哪个作者的出版物数量最多?

我试试这个

但它似乎不起作用。

0 投票
2 回答
30652 浏览

machine-learning - 需要用于欺诈检测的数据集

我有一个欺诈检测算法,我想检查它是否适用于真实世界的数据集。

我的算法表明索赔是否正常。

有没有可用的数据集?

0 投票
1 回答
143069 浏览

r - 如何删除R中箱线图中的异常值?

可能重复:
更改箱线图中的异常值规则

我需要使用箱线图来可视化我的结果。

如何在可视化过程中过滤异常值?

(1) 这样我就可以在屏幕上看到完整的图像,而不会出现丑陋的异常值。

http://postimage.org/image/szzbez0h1/a610666d/

(2) 有什么方法可以显示一定范围内的异常值? http://postimage.org/image/np28oee0b/8251d102/

问候

0 投票
2 回答
4614 浏览

r - 从数据框中删除单变量异常值(+-3 SD)

我对 R 很陌生,以至于我很难在别人的问题中找到我需要的东西。我认为我的问题是如此简单,以至于没有人会费心去问它。

什么是最简单的代码来创建一个新的数据框,该数据框排除了单变量异常值的数据(我将其定义为与条件均值相差 3 个标准差的点),在他们的条件下,在某个变量上?

我很尴尬地展示我尝试过的东西,但就是这样

我几乎已经被困在那里了。

谢谢

0 投票
2 回答
2014 浏览

excel - 将超出轴最大值的数据点绘制为最大值

我有一组自动生成的图表,我需要稍微调整一下。我的 Y 轴从 0 到 1000,但我有一些超出此范围的值。对于超过 1000 的值,我想在 1000 处绘制一个点,以提醒用户数据存在的事实。

一个期望的特性:如果可以根据单元格值(即大于 1000 的单元格值)更改单个数据点的格式,那就太棒了;这不是必需的,但它会使查看数据(近 100 个图表)变得更加容易。

谢谢!

0 投票
3 回答
2524 浏览

r - outline=FALSE 用什么方法判断异常值?

在 R 中,我使用了 outline=FALSE 参数在为特定集合绘制框和胡须时排除异常值。它的工作非常出色,但让我想知道它究竟是如何确定哪些元素是异常值。

0 投票
1 回答
100 浏览

r - getOutliersI 的默认限制方法是什么?

使用extremevaluesR 中的包进行单变量异常值检测。我对统计数据的理解公认有限,但我试图从概念上掌握一些 getOutliersI 函数在确定异常值时所做的工作。我试过查看包的文档,但没有找到。

对我的数据调用该函数会产生符合常识的结果:

由于我没有提供任何 rho 或 FLim 参数,它正在为我计算限制——但是如何?

0 投票
2 回答
1664 浏览

matlab - Matlab根据数据和它们发生的时间计算异常值

在 Matlab 中,我有一个大矩阵 A。矩阵的第一列包含以秒为单位的时间。第二至第 13 列包含计算结果。对于每一列(第一列除外),我通过以下方式计算了晶须:

分位数(A,[.75])-1.5*(分位数(A,[.75])-分位数(A,[.25]))

现在我想知道每列中有多少异常值(=低于晶须的值),以及它们何时发生。这将使我能够计算出异常值随时间的分布情况。

我更喜欢创建一个循环,它给我 12 个包含两列的矩阵。第二列应包含异常值的值(= 晶须下方单元格的值),中间没有任何零,第一列应包含异常值发生的时间(按时间顺序)。

我怎样才能创建这个?

问候,

文森特