问题标签 [anomaly-detection]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
39281 浏览

java - 来自 PMD 的数据流异常分析警告

我正在使用 EclipsePMD Plug-in (4.0.0.v20130510-1000)并遇到很多违规行为:

Found 'DD'-anomaly for variable 'freq' (lines '187'-'189').
Found 'DU'-anomaly for variable 'freq' (lines '189'-'333').

这个SO 答案中,它说这些异常与分配从未读取过的值有关。但在这种情况下,我得到了违规行为:

如果我删除初始化并freq = 0;在块中添加一行catch,则 DD 异常消失,但我在两个分配中都得到了 DU 异常。

现在我的问题是:我应该如何处理?PMD 的首选解决方案是什么?这条规则究竟是为了防止什么(即为什么这是不好的做法)?

0 投票
1 回答
3174 浏览

machine-learning - 机器学习——一类分类/新奇检测/异常评估?

我需要一个满足以下要求的机器学习算法:

  • 训练数据是一组特征向量,都属于同一个“正”类(因为我不能产生负数据样本)。
  • 测试数据是一些可能属于或不属于正类的特征向量。
  • 预测应该是一个连续值,应该表示与正样本的“距离”(即0表示测试样本明显属于正类,1表示明显负,但0.3表示有点正)

一个例子:假设特征向量是二维特征向量。

正向训练数据:

  • (0, 1), (0, 2), (0, 3)

测试数据:

  • (0, 10) 应该是一个异常,但不是一个明显的异常
  • (1, 0) 应该是异常,但“等级”高于 (0, 10)
  • (1, 10) 应该是一个异常,具有更高的异常“等级”
0 投票
1 回答
362 浏览

r - Twitter AnomalyDetection 包无法识别负面异常

我一直在尝试使用 Twitter 的AnomalyDetection包来识别可疑的低数据,但我无法使用选项“direction = 'neg'”。当我运行以下示例(取自此处)时,我只得到一个具有 0 个观察值的 data.frame,并且该图的结果为 NULL:

有什么方法可以使用“direction = 'neg'”选项吗?

0 投票
1 回答
1526 浏览

algorithm - 使用 Apache Spark 处理时间序列数据的 K-Means

我有一个数据管道系统,所有事件都存储在 Apache Kafka 中。有一个事件处理层,它使用并转换该数据(时间序列),然后将生成的数据集存储到 Apache Cassandra 中。

现在我想使用 Apache Spark 来训练一些机器学习模型来进行异常检测。这个想法是对过去的数据运行 k-means 算法,例如一天中的每一小时。

例如,我可以选择下午 4 点到 5 点之间的所有事件并为该时间间隔构建模型。如果我应用这种方法,我将得到正好 24 个模型(每个小时的质心)。

如果算法运行良好,我可以将间隔的大小减少到例如 5 分钟。

这是对时间序列数据进行异常检测的好方法吗?

0 投票
1 回答
858 浏览

machine-learning - 时间序列单变量数据集的异常检测算法

我有单变量时间序列数据,我需要运行异常检测算法。任何人都可以建议任何在大多数情况下都有效的异常检测标准算法吗?

0 投票
1 回答
999 浏览

google-analytics - 实时谷歌分析异常检测

我正在尝试检测谷歌分析事件中的异常,如页面浏览量或自定义事件。我测试了谷歌本身的自定义警报功能。这些警报的周期是每天、每周或每月。我正在寻找的是实时检测。为警报定义规则(例如两个时间点之间的最大偏差)会很有用。例如 [现在,现在 - 15 分钟] 或 [现在,现在 - 24 小时] 或 [现在,现在 - 7 天]。一些解决方案会在超过固定阈值时提供警报(例如observe.io)。但这对于取决于工作日和白天(如页面浏览量)的高度波动的数字不是很有帮助。

对于如何实时检测 GA 异常的任何提示,我将不胜感激。

0 投票
1 回答
805 浏览

r - 如何避免需要 TRUE/FALSE 的 R AnomalyDetectionTs 错误缺失值

我在使用 AnomalyDetection R 包的 AnomalyDetectionTs 函数时遇到问题:

在这篇文章之后:https ://blog.twitter.com/2015/introducing-practical-and-robust-anomaly-detection-in-a-time-series

产生这个:

我使用与官方文档中相同的数据格式、相同的数据类型、相同的数据帧大小和相同的参数:

0 投票
1 回答
203 浏览

machine-learning - 检测多维数据中的共同特征

我正在设计一个异常检测系统

有多种方法可以构建这样的系统。我选择通过检测大多数样本共享的特征来实现这种系统的一个方面。我承认这种方法可能存在不足,但对于我的特定用例:(1)知道一个新样本包含(或缺少)大多数过去数据共享的特征就足以做出快速决定。(2)我'我对这种方法将为数据提供的见解感兴趣。

所以,问题来了:

考虑具有M个数据点的大型数据集,其中每个数据点可能包含任意数量的 {key:value} 特征。我选择通过对数据中观察到的所有特征(所有唯一键的集合)进行分组并将其设置为模型的特征空间来对训练数据集进行建模。我通过为现有键设置其值来定义每个样本,并为它不包含的功能中的值设置无。

给定这个训练数据集,我想确定哪些特征在数据中再次出现;对于此类重复出现的功能,它们是否主要共享一个值。

我的问题:

一个简单的解决方案是计算所有内容 - 为N个特征中的每一个计算值的分布。然而,由于MN可能很大,我想知道是否有更紧凑的方法来表示数据或更复杂的方法来声明特征频率。

我是在重新发明现有的轮子吗?如果有完成此类任务的在线方法会更好。

0 投票
1 回答
596 浏览

c++ - 图像比较方法和降噪

我目前正在做一个从一系列产品线中发现破损或坏产品的项目。我正在尝试使用 Opencv 通过Canny提取边缘。以下是分别从不良产品和样品产品获得的边缘。

坏的

坏的

好的

好的

边缘非常清晰,但有许多无意义的斑点(噪音)小区域,因此似乎无法直接逐像素比较这两张照片。我在想我是否可以继续旋转和移动不良产品并找到最佳比较分数,例如像素之间的平方差。然而,有了这些噪音,这种方法似乎是不可能的。

因此,我在想是否有办法提取最大的连接区域或将这些连接区域分成几张图片?或者,即使在这种情况下,是否存在更好的比较方法?

非常感谢!!!

0 投票
1 回答
793 浏览

r - 如何使用 R 中的 Bursts 包查找时间序列中的突发

我已经尝试使用bursts包进行突发检测。我这样做是因为我想在时间序列中找到峰值。

当我这样做时kleinberg(ts),它说:

时间序列是:

dput(ts)我感兴趣的一个特定时间序列的输出是