问题标签 [outliers]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
44374 浏览

r - 如何在 R 代码中使用异常值测试

作为我的数据分析工作流程的一部分,我想测试异常值,然后在有和没有这些异常值的情况下进行进一步的计算。

我找到了异常包,它有各种测试,但我不确定如何最好地将它们用于我的工作流程。

0 投票
7 回答
15547 浏览

statistics - 从一组数据中排除异常值的有效且准确的算法是什么?

我有 200 个数据行(意味着一小组数据)。我想进行一些统计分析,但在此之前我想排除异常值。

用于此目的的潜在算法是什么?准确性是一个值得关注的问题。

我对 Stats 非常陌生,因此需要非常基本的算法方面的帮助。

0 投票
2 回答
8015 浏览

r - R:如何从 ggplot2 中的平滑器中删除异常值?

我有以下数据集,我试图用 ggplot2 绘制,它是三个实验 A1、B1 和 C1 的时间序列,每个实验都有三个重复。

我正在尝试添加一个统计信息,该统计信息在返回更平滑(均值和方差?)之前检测并删除异常值。我已经编写了自己的异常值函数(未显示),但我希望已经有一个函数可以做到这一点,我只是还没有找到它。

我从 ggplot2 书中的一些示例中查看了 stat_sum_df("median_hilow", geom = "smooth") ,但我不理解 Hmisc 的帮助文档,看看它是否删除了异常值。

在ggplot中是否有删除此类异常值的功能,或者我将在哪里修改下面的代码以添加我自己的功能?

编辑:我刚刚看到这个(如何在 R 代码中使用异常值测试)并注意到 Hadley 建议使用稳健的方法,例如 rlm。我正在绘制细菌生长曲线,所以我认为线性模型不是最好的,但对于其他模型或在这种情况下使用或使用稳健模型的任何建议将不胜感激。

这是我到目前为止所拥有的并且运行良好,但异常值没有被删除:

编辑:我刚刚在下面添加了两个图表,显示了我从真实数据而不是上面的示例数据中遇到的异常问题的示例。

第一个图显示了 p26s4 系列,在第 32 天左右,两个复制品发生了非常奇怪的事情,显示了 2 个异常值。

第二个图显示了 p22s5 系列,在第 18 天,那天的读数发生了一些奇怪的事情,我认为可能是机器错误。

目前我正在观察数据,以检查增长曲线是否正常。在采纳 Hadley 的建议并设置 family =“对称”之后,我相信黄土平滑器在忽略异常值方面做得不错。

p26s4 在第 32 天左右显示了两个重复中发生的非常奇怪的事情,显示了 2 个异常值 p22s5 显示在第 18 天,那天的读数出现了一些奇怪的情况,我认为可能是机器错误

@Peter/@hadley,接下来我想做的是尝试将逻辑、gompertz 或 Richard 的增长曲线拟合到这些数据而不是黄土,并计算指数阶段的增长率。最终我计划在 R 中使用 grofit 包(http://cran.r-project.org/web/packages/grofit/index.html),但现在我想尽可能使用 ggplot2 手动绘制这些。如果您有任何指示,将不胜感激。

0 投票
2 回答
923 浏览

java - Java 或 C 等效于 MATLAB 的鲁棒拟合

MATLAB 有一个很棒robustfit的功能,可以通过线性回归拟合解决排除异常值的问题。是否有任何类似的用 Java 或 C(或可以采用的 X 语言)编写的东西?

0 投票
11 回答
376851 浏览

r - 如何从数据集中删除异常值

我有一些关于美丽与年龄的多元数据。年龄范围从 20-40 以 2 (20, 22, 24....40) 为间隔,对于每条数据记录,他们被赋予一个年龄和一个从 1-5 的美丽等级。当我绘制这些数据的箱线图时(X 轴上的年龄,Y 轴上的美女评级),在每个框的胡须之外绘制了一些异常值。

我想从数据框本身中删除这些异常值,但我不确定 R 如何计算其箱线图的异常值。下面是我的数据可能是什么样子的示例。 在此处输入图像描述

0 投票
2 回答
1114 浏览

ruby - 可以检测统计异常值的宝石

有人知道任何能够检测一组统计异常值的宝石吗?

谢谢。

0 投票
5 回答
1962 浏览

r - R 语言 - 将数据分类为范围;平均; 忽略异常值

我正在分析来自风力涡轮机的数据,通常这是我会在 excel 中做的事情,但数据量需要一些繁重的东西。我以前从未使用过 R,所以我只是在寻找一些指针。

数据由两列WindSpeedPower组成,到目前为止,我已经从 CSV 文件导入数据,并将两者相互散点图。

我接下来要做的是将数据分类为范围;例如,WindSpeed介于 x 和 y 之间的所有数据,然后找到每个范围内产生的功率平均值并绘制形成的曲线图。

根据这个平均值,我想根据落在平均值的两个标准偏差之一内的数据重新计算平均值(基本上忽略异常值)。

任何指针表示赞赏。

对于那些有兴趣的人,我正在尝试创建一个类似于this的图表。它是一种非常标准的图表类型,但就像我说的那样,数据的剪切量需要比 excel 更重的东西。

0 投票
2 回答
2359 浏览

function - R: outlier cleaning for each column in a dataframe by using quantiles 0.05 and 0.95

I am a R-novice. I want to do some outlier cleaning and over-all-scaling from 0 to 1 before putting the sample into a random forest.

If i do a simple scaling from 0 - 1 the result would be:

So my idea is to replace the values of each column that are greater than the 0.95-quantile with the next value smaller than the 0.95-quantile - and the same for the 0.05-quantile.

So the pre-scaled result would be:

and scaled:

I need this formula for a whole dataframe, so the functional implementation within R should be something like:

Can anyone help?

Spoken beside: if there exists a function that does this job directly, please let me know. I already checked out cut and cut2. cut fails because of not-unique breaks; cut2 would work, but only gives back string values or the mean value, and I need a numeric vector from 0 - 1.

for trial:

Regards and thanks for help,

Rainer

0 投票
4 回答
14070 浏览

data-mining - 数据挖掘中的异常值检测

我有几组关于异常值检测的问题:

  1. 我们可以使用 k-means 找到异常值吗?这是一个好方法吗?

  2. 是否有任何不接受用户输入的聚类算法?

  3. 我们可以使用支持向量机或任何其他监督学习算法进行异常值检测吗?

  4. 每种方法的优缺点是什么?

0 投票
1 回答
299 浏览

data-mining - 是否有任何用于数据库的开源异常值矿工

我正在寻找一个开源异常值检测器。我知道可以使用 rapidminer/knime/wekka 实现这样的检测器,但我想知道是否已经有这样的工具。