问题标签 [anomaly-detection]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1234 浏览

python-3.x - 用于无监督异常检测的 Python AUC 计算(隔离森林、椭圆包络......)

我目前正在研究异常检测算法。我阅读了比较基于 AUC 值的无监督异常算法的论文。例如,我有来自 Elliptic Envelope 和 Isolation Forest 的异常分数和异常类。我如何根据 AUC 值比较这两种算法。

我正在寻找一个 python 代码示例。

谢谢

0 投票
0 回答
880 浏览

python - 使用均值偏移 sklearn 进行异常检测

我正在尝试使用 sklearn 的均值偏移来查找数据集中的异常和异常值。数据集是来自传感器的信号值。我有一个训练数据集来训练算法和一个包含虚拟异常的测试数据集。我的问题是,当我在测试数据集上使用预测方法时,均值偏移不会将异常标记为 -1 或任何其他指示异常或异常值的值,而是将它们与有效集群相关联。这里的代码:

这里前 5 行训练数据集:

这里有虚拟异常的前 5 行测试数据集:

我可以做些什么来检测测试数据集中的异常?

0 投票
1 回答
120 浏览

python - 具有大量零数据的点击欺诈检测

我有一些广告发布者的数据集。发布商通过每次点击广告赚取收入。数据集由发布者列表和相应的点击次数和他们引起的交易次数组成。问题是出版商是否作弊并点击它自己的广告以获得更多的钱。但其中一些发布商的总点击量非常小(低于 10),因此交易次数为 0。

我的问题是我应该如何处理这些零数据?他们实际上破坏了我的数据高斯分布。我该怎么办?只是从我的数据集中消除它们?有什么统计方法可以做这样的事情吗?

顺便说一句,我对数据分析很陌生,如果答案很明显,请原谅,但我在网上找不到答案。

0 投票
0 回答
1192 浏览

time-series - 股票市场的时间序列异常检测

我更深入地研究异常检测算法,并在包括地震活动、IDS 等在内的各个领域发现了许多应用。但是,我在 Google Scholar 和 Semantic Sc​​holar 上找不到一篇关于股票市场应用的论文,但关于股票市场的应用却无穷无尽。股票市场的预测。

我刚找到这两个网站,简要讨论一下:SliceMatrixIntro to AD

怎么来的?是不是跟预测股市价格一样有趣?或者我不知道股票市场是否存在其他复杂情况?

如果有人可以指导我获取有关此主题的一些资源,我将非常高兴。

亲切的问候

0 投票
1 回答
1354 浏览

r - 对零线以外的正和正区域进行阴影处理:R 中的异常

给定一个标准化的时间序列,我想分别用蓝色和红色着色正负区域。从以下帖子中获得灵感,我尝试了以下方法:

在此处输入图像描述

阴影区域不geom_line正确。即便如此,该地区看起来也很尴尬。

如何以一种简洁的方式填充 geom_lines 下的区域?

样本数据:

这是在 MATLAB 中绘制的同一图,可以在此处找到。也欢迎 ggplot2 之外的解决方案。

MATLAB异常函数绘制的同一图

在此处输入图像描述

0 投票
1 回答
1558 浏览

python - 用python检测时间序列异常

我正在研究大量的时间序列。通常,时间序列遵循线性趋势(带有一些噪声),示例如下所示:

正常时间序列示例

然而,有时检测器出现故障,导致时间序列的 y 值突然下降。例子:

在此处输入图像描述

我的问题:如何使用 Python 检测这种“跳跃”?

0 投票
2 回答
816 浏览

r - R中的异常检测

我习惯于使用 R 中的 qcc 包来检测数据中的异常值。我最近遇到了 AnomalyDetection 包。在这里找到:https ://github.com/twitter/AnomalyDetection

我的数据集如下:

当我使用 AnomalyDetection 包测试此数据集时,响应为 NULL,并且没有显示任何绘图。知道为什么会这样吗?

0 投票
1 回答
150 浏览

neural-network - 电子商务服务器中的 RAM/CPU 使用检测警报

目前我正在为我的电子商务服务器构建我的监控服务,主要关注 CPU/RAM 的使用。这可能是对时间序列数据的异常检测。

我的方法是构建 LSTM 神经网络来预测图表趋势上的下一个 CPU/RAM 值,与 STD(标准偏差)值乘以某个数字(当前为 10)进行比较

但在现实生活条件下,它取决于许多不同的条件,例如:

1- 维护时间(此时“异常”不是“异常”)

2- 休息日、节假日等销售时间,RAM/CPU 使用率增加是正常的,当然

3- 如果 CPU/RAM 减少的百分比在 3 次观察中相同:5 分钟、10 分钟和 15 分钟 -> 异常。但是如果 5 分钟减少了 50%,但 10 分钟并没有减少太多(-5% ~ +5%)-> 不是“异常”。

目前我在公式上检测到异常,如下所示:

其中 Diff 是绝对值的不同百分比。

不幸的是,我没有保存我的“纯”数据来构建神经网络,例如,当它检测到异常时,我修改它不再是异常。

我想为模型的输入添加一些属性,例如isMaintenance、isPromotion、isHoliday 等,但有时会导致过度拟合。

我还希望我的 NN 可以随着时间的推移调整基线,例如,当我的服务更受欢迎时等。

这些目标有什么提示吗?

谢谢

0 投票
2 回答
263 浏览

scikit-learn - 通过更改“nu”导致 OneClassSVM 的行为不稳定

在上面的示例中,我使用我的数据集来识别异常值。对nu参数稍作更改后,识别出的异常数量存在巨大差异。

一类SVM

这可能只是数据集的一个特殊性吗?还是 scikit-learn 中的错误?

PS 不幸的是,我无法共享数据集。

0 投票
1 回答
346 浏览

svm - 用于异常检测的时间序列数据预处理

我正在使用跨越两个月 [2015 年 11 月和 2015 年 12 月] 的大量时间序列数据,其中包含时间戳观察。总共约600万个样本。我使用数据集中的干净数据部分来训练 One 类 SVM。

这里要注意的是,我已经相应地对数据进行了缩放和规范化,但我正在使用处理过的原始时间戳来训练它。在我训练了 OCSVM 之后 - 在我的测试数据上对其进行测试效果不佳。结果非常不准确。

我认为的原因是因为我正在使用时间戳对其进行训练。但我不确定。

是否更建议进行预处理并获得每小时的平均值然后对其进行训练,而不是按原样进行每次观察

我一直在尝试在训练之前找到如何处理时间序列数据,但我找不到任何东西。任何建议或参考论文将不胜感激

注意:我在简历上也问过同样的问题。