问题标签 [outliers]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
4835 浏览

r - 用 R 烹饪距离图

有谁知道,如何获取您从此代码中获得的单个厨师距离图:

我不喜欢的是这个

因为它在 y 轴上没有残差并且在 x 轴上没有杠杆作用!

多谢你们

0 投票
1 回答
562 浏览

sql-server - 在 SQL Server 中使用 MODE 进行标准差

我正在尝试使用 MODE 的 1.65 (90%) 标准偏差来消除一组异常值,而不是 MEAN,出于各种原因,我现在不会讨论。

有没有这样做的好方法?我假设内置的 STDVE() 使用了 MEAN。有谁知道这是在幕后做什么,所以我可以基于它构建自己的功能,但对于 MODE?

在此先感谢,尼克

0 投票
3 回答
1217 浏览

cluster-analysis - 找出异常值的最佳聚类算法是什么?

基本上我有一些每小时和每天的数据,比如

第 1 天

小时,测量 (1,21) (2,22) (3,27) (4,24)

第 2 天,测量 (1,23) (2,26) (3,29) (4,20)

现在我想通过考虑每小时变化以及使用双变量分析的每日变化来找出数据中的异常值......其中包括每小时和测量......

那么考虑到这种情况,哪种聚类算法更适合找出异常值呢?.

0 投票
2 回答
1124 浏览

jfreechart - Outlier rules in JFreeChart Boxplots?

i've got some questions regarding outlier rules in JFreeChart:

  1. Is it possible to influence the outlier rules in a JFreeChart Boxplot?
  2. I would assume that the default setting for outliers is Q3+1.5*IQR and Q1-1.5*IQR?
  3. Is there a default rule for extreme values like Q3+3*IQR and Q1-3*IQR?

  4. Maybe this should be a separate Question but how do you set the symbol for outliers? The default setting is a circle which is too big for my preference.

My data is in a DefaultBoxAndWhiskerCategoryDataset and i am not even sure if i need to change any of the default settings. Nevertheless it would be nice to know what exactly the default settings are ;)

0 投票
3 回答
375 浏览

events - 实时检测事件频率峰值

在 Web 应用程序中,每次发生事件时我都会收到一个触发器。我想检测“暴力”频率峰值,这可能会转化为异常行为。

我可以想到两种天真的方法来实现这一目标:

  • 固定阈值 - “如果在一分钟内发生超过 500 个事件,则某事可能是错误的”。除非应用程序可以定期调整阈值,否则此方法无法处理平滑的阈值突破或稳定增加的流量。

  • Window-related heuristic - 将窗口划分为 N 个相等 (?) 的间隔。当 N>0 时,计算事件发生在 [now-(N*interval_length), now] 中的频率。将其保存在列表中。将 N 减 1。重复。检测列表异常值。如果有一个异常值大于 [now-window_length, now] 的平均频率,那么这可能是错误的。”

我想知道是否有针对此问题的通用/标准解决方案,或者您是否可以想到任何更有效或更优雅的方法。

先感谢您。

编辑——另一个建议

我的一个朋友建议使用 Holt-Winters 预测进行异常行为检测。您可以在以下链接中找到有关此方法的更多信息:

http://www.hpl.hp.com/news/events/csc/2005/jake_slides.pdf

http://www.usenix.org/events/lisa00/full_papers/brutlag/brutlag_html/

0 投票
3 回答
233 浏览

r - 用于查找错误输入数据的 R 包

我正在处理一个数据集有一些明显的数据错误(即小于 1 岁且信用卡余额为 50,000 美元的孩子)。我不能逐行遍历,因为设置是 >100k 行。有没有关于如何在数据集中搜索这些类型的明显问题或什至更好地在 R 中搜索任何包的正式工作?还是我应该开始做直方图?

0 投票
2 回答
6556 浏览

opencv - OpenCV 冲浪和异常值检测

我知道这里已经有几个相同主题的问题,但我找不到任何帮助。

因此,我想比较 2 个图像以了解它们的相似程度,并且我正在使用众所周知的 find_obj.cpp 演示来提取 surf 描述符,然后我使用 flannFindPairs 进行匹配。

但正如你所知,这种方法不会丢弃异常值,我想知道真正的正匹配的数量,这样我就可以知道这两个图像有多相似。

我已经看到了这个问题:Detecting outliers in SURF or SIFT algorithm with OpenCV,那里的人建议使用 findFundamentalMat 但是一旦你得到了基本矩阵,我怎么能从那个矩阵中得到异常值/真阳性的数量?谢谢你。

0 投票
1 回答
1924 浏览

database - 检测稀疏分布中的异常值?

我想找到检测异常值的最佳方法是什么。这是问题所在,有些事情可能不起作用。假设我们想从 mysql 中的脏 varchar(50) 列中找出一些准统一数据。让我们从按字符串长度进行分析开始。

我想做的是设计一种算法来确定哪个字符串长度很可能是故意唯一的,而不是打字或随机垃圾。该字段可能是“枚举”类型,因此有效值可能存在多个频率峰值。显然 10 和 20 是有效的,0 只是省略了数据。35 和 3 可能是一些随机垃圾,尽管它们的频率非常不同。19 和 21 可能是 20 格式的类型操作系统。11 可能是 10 的类型操作系统,但是 12 呢?

似乎仅仅使用出现频率 % 是不够的。在明显的异常值周围需要有更高“只是一个错误”概率的热点。

此外,当有 15 个唯一长度可以在 5-20 个字符之间变化时,固定阈值会失败,每个字符的出现率在 7% - 20% 之间。

标准差不起作用,因为它依赖于平均值。中值绝对偏差可能不起作用,因为您可能有一个无法丢弃的高频异常值。

是的,还会有其他参数用于清理代码中的数据,但长度似乎可以非常快速地对具有任意数量结构的字段进行预过滤和分类。

是否有任何已知的有效方法?我对贝叶斯过滤器或机器学习不是很熟悉,但也许他们可以提供帮助?

谢谢!莱昂

0 投票
3 回答
2384 浏览

statistics - 局部异常因子 (LOF) 软件/演示?

是否有任何软件可以让我对 2D 数据集执行 LOF 异常值检测?我刚刚从原始论文中实现了 LOF,并想检查我的结果是否正确。到目前为止,我找不到任何工具或在线服务。

0 投票
3 回答
5650 浏览

r - 受异常值影响的ggplot2色标

我很难处理一些异常值,使色标无用。

我的数据有一个基于范围的 Length 变量,但通常会有一些更大的值。下面的示例数据有 95 个介于 500 和 1500 之间的值,以及 5 个超过 50,000 的值。当我想看到 500 到 1500 之间的颜色变化时,生成的颜色图例倾向于使用 10k、20k、... 70k 来表示颜色变化。实际上,超过 1300 的任何颜色都应该是相同的纯色(可能是中值 +/- mad ),但我不知道在哪里定义它。

我对任何 ggplot 解决方案持开放态度,但理想情况下,较低的值是红色、中间白色和较高的蓝色(低是不好的)。在我自己的数据集中,日期是 ggplot aes() 中带有 as.POSIXct() 的实际日期,但似乎不会影响示例。

添加 trans="log" 或 "sqrt" 也不能解决问题。

感谢您的帮助!