问题标签 [anomaly-detection]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-3.x - 用于无监督异常检测的 Python AUC 计算(隔离森林、椭圆包络......)
我目前正在研究异常检测算法。我阅读了比较基于 AUC 值的无监督异常算法的论文。例如,我有来自 Elliptic Envelope 和 Isolation Forest 的异常分数和异常类。我如何根据 AUC 值比较这两种算法。
我正在寻找一个 python 代码示例。
谢谢
python - 使用均值偏移 sklearn 进行异常检测
我正在尝试使用 sklearn 的均值偏移来查找数据集中的异常和异常值。数据集是来自传感器的信号值。我有一个训练数据集来训练算法和一个包含虚拟异常的测试数据集。我的问题是,当我在测试数据集上使用预测方法时,均值偏移不会将异常标记为 -1 或任何其他指示异常或异常值的值,而是将它们与有效集群相关联。这里的代码:
这里前 5 行训练数据集:
这里有虚拟异常的前 5 行测试数据集:
我可以做些什么来检测测试数据集中的异常?
python - 具有大量零数据的点击欺诈检测
我有一些广告发布者的数据集。发布商通过每次点击广告赚取收入。数据集由发布者列表和相应的点击次数和他们引起的交易次数组成。问题是出版商是否作弊并点击它自己的广告以获得更多的钱。但其中一些发布商的总点击量非常小(低于 10),因此交易次数为 0。
我的问题是我应该如何处理这些零数据?他们实际上破坏了我的数据高斯分布。我该怎么办?只是从我的数据集中消除它们?有什么统计方法可以做这样的事情吗?
顺便说一句,我对数据分析很陌生,如果答案很明显,请原谅,但我在网上找不到答案。
time-series - 股票市场的时间序列异常检测
我更深入地研究异常检测算法,并在包括地震活动、IDS 等在内的各个领域发现了许多应用。但是,我在 Google Scholar 和 Semantic Scholar 上找不到一篇关于股票市场应用的论文,但关于股票市场的应用却无穷无尽。股票市场的预测。
我刚找到这两个网站,简要讨论一下:SliceMatrix和Intro to AD
怎么来的?是不是跟预测股市价格一样有趣?或者我不知道股票市场是否存在其他复杂情况?
如果有人可以指导我获取有关此主题的一些资源,我将非常高兴。
亲切的问候
r - R中的异常检测
我习惯于使用 R 中的 qcc 包来检测数据中的异常值。我最近遇到了 AnomalyDetection 包。在这里找到:https ://github.com/twitter/AnomalyDetection
我的数据集如下:
当我使用 AnomalyDetection 包测试此数据集时,响应为 NULL,并且没有显示任何绘图。知道为什么会这样吗?
neural-network - 电子商务服务器中的 RAM/CPU 使用检测警报
目前我正在为我的电子商务服务器构建我的监控服务,主要关注 CPU/RAM 的使用。这可能是对时间序列数据的异常检测。
我的方法是构建 LSTM 神经网络来预测图表趋势上的下一个 CPU/RAM 值,并与 STD(标准偏差)值乘以某个数字(当前为 10)进行比较
但在现实生活条件下,它取决于许多不同的条件,例如:
1- 维护时间(此时“异常”不是“异常”)
2- 休息日、节假日等销售时间,RAM/CPU 使用率增加是正常的,当然
3- 如果 CPU/RAM 减少的百分比在 3 次观察中相同:5 分钟、10 分钟和 15 分钟 -> 异常。但是如果 5 分钟减少了 50%,但 10 分钟并没有减少太多(-5% ~ +5%)-> 不是“异常”。
目前我在公式上检测到异常,如下所示:
其中 Diff 是绝对值的不同百分比。
不幸的是,我没有保存我的“纯”数据来构建神经网络,例如,当它检测到异常时,我修改它不再是异常。
我想为模型的输入添加一些属性,例如isMaintenance、isPromotion、isHoliday 等,但有时会导致过度拟合。
我还希望我的 NN 可以随着时间的推移调整基线,例如,当我的服务更受欢迎时等。
这些目标有什么提示吗?
谢谢
svm - 用于异常检测的时间序列数据预处理
我正在使用跨越两个月 [2015 年 11 月和 2015 年 12 月] 的大量时间序列数据,其中包含时间戳观察。总共约600万个样本。我使用数据集中的干净数据部分来训练 One 类 SVM。
这里要注意的是,我已经相应地对数据进行了缩放和规范化,但我正在使用处理过的原始时间戳来训练它。在我训练了 OCSVM 之后 - 在我的测试数据上对其进行测试效果不佳。结果非常不准确。
我认为的原因是因为我正在使用时间戳对其进行训练。但我不确定。
是否更建议进行预处理并获得每小时的平均值然后对其进行训练,而不是按原样进行每次观察?
我一直在尝试在训练之前找到如何处理时间序列数据,但我找不到任何东西。任何建议或参考论文将不胜感激
注意:我在简历上也问过同样的问题。