问题标签 [anomaly-detection]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
neural-network - 使用神经网络方法检测图像中的差异
检测两张图像之间差异的最佳方法是什么,一张图像在过程开始时拍摄,另一张在结束时拍摄,目标是检测图像中是否存在任何差异。
根据我的研究,神经网络似乎适合这类问题,但我没有使用它们的经验,我不确定这个问题应该被视为分类还是异常检测?此外,如果您有任何有用的文献/GitHub 项目/论文要分享,我将不胜感激。
scala - 使用 apache spark 进行在线时间序列异常检测
我们有一个数据管道系统
apache kafka---->spark steaming----->spark mlib
消耗的数据是时间序列数据(例如每条记录的形式为[key,value,timestamp])
我们想要监控每个键的时间序列异常(如 twitter 异常https://anomaly.io/anomaly-detection-twitter-r/)
即,我们想要训练系统(针对每个键)并且我们想要在线检测异常(即,如果特定键的值范围在一天中的特定时间超出通常范围)。
这可以用apache spark完成吗?k-means 能帮上忙吗?我们可以有一个示例代码(scala 代码)吗?他们有任何框架或库吗?
python - 用于一维数组或列表的隔离森林 Sklearn 以及如何调整超参数
有没有办法为一维数组或列表实现 sklearn 隔离森林?我遇到的所有示例都是二维或更多的数据。
我现在已经开发了一个具有三个功能的模型,下面提到了示例代码:
我主要依赖的参考:IsolationForest example | scikit-学习
df_data 是一个包含三列的数据框。我实际上是在寻找 1 维或列表数据中的异常值。
另一个问题是如何调整隔离林模型?其中一种方法是增加污染值以减少误报。但是如何使用其他参数,如 n_estimators、max_samples、max_features、versbose 等。
javascript - 检测数据集中异常的方法
我正在开发一个 Chrome 扩展程序并想检测 cpu 和 gpu 使用异常。我有两个数组:我的计算机最后 60 秒的 cpu 和 gpu 使用情况。
我想检测 cpu 和 gpu 使用中的异常情况,以找出:
- cpu和gpu使用正常吗?
- 将这些数组相互比较,如果它们成正比或不成正比
你能建议我一些方法来做这样的检测吗?
machine-learning - 动态环境的机器学习算法
哪些方法最适合在动态环境中管理、预测和标记数据?系统数据分布变化,它不是静态的。系统可以有不同的正态设置,在不同的设置下,我们有不同的正态数据分布。考虑我们有两个类。正常和异常。怎么了?我们不能说我们可以依靠历史数据并训练一种简单的分类方法来预测未来的观察结果,因为在训练模型一天后,数据分布可能会发生变化,旧的观察结果将与新的观察结果无关。考虑下图:
蓝色分布和红色分布是正常数据,但在不同的设置下,在训练时我们只有一个设置。该数据适用于一个传感器。所以,假设我们用蓝色模型训练一个模型,并且还有一些异常样本。将异常样本想象为正常样本,在测量中带有一点噪音或故障。然后,我们想测试模型,但设置发生了变化,现在我们有红色分布作为我们的测试观察值。因此,模型对样本进行了错误分类。
对于这种情况,最好的方法是什么?请注意,我尝试了几种聚类算法,但它们无法管理和区分正常和异常样本。
非常欢迎任何建议和帮助。谢谢
microsoft-cognitive - 调用异常检测 API 时出错
作为 Microsoft 认知服务实验室的一部分,我一直在搞乱异常检测 API 。但是,当我尝试发布数据以获取响应时,它总是返回为
认为这是我提供的数据格式的问题,我用他们作为样本的内容仔细检查了它:
这是我发送给它的一些返回错误的数据:
使用 Python 调用带有requests
包的 API:
该output
对象是一个字典,如下所示:
这是从每月的牛奶产量数据集得出的。
我丢失的数据是否有问题导致它返回该错误?
python - lstm 自动编码器预测总是从零开始
我正在尝试构建一个 LSTM 自动编码器来查找一组信号中的异常。自动编码器似乎运行良好,除了在曲线的开头。在他开始时,所有重建的曲线都从零开始。当我标准化它们时,实际上这里的零是每条曲线的平均值。看这张图
它发生在所有曲线上。训练曲线是这样的
我在这里想念什么?
自动编码器是使用 Keras 构建的,如下所示
训练和测试数据从这里下载 https://github.com/h2oai/h2o-2/tree/master/smalldata/anomaly
ecg_discord_train.csv 和 ecg_discord_test.csv
python - 哪种算法适合我的时间序列数据?
我在监控团队工作,我们会监控我们工具上的客户端负载。我们记录了与时间序列相关的延迟。
最初,我保留了一个静态阈值来提高异常检测。但是,如果发生季节性,它就不起作用。现在,我计划在我的数据上应用 ML。
我的数据看起来像:
当我做谷歌时,我想到了 ARIMA 是时间序列的最佳模型。我对数学很感兴趣,可以弄清楚各自的 ARIMA 是否对我的数据集有好处。
我的问题是哪种算法最适合在 Python 中实现?我应该考虑哪些因素来发现异常?
python - 我可以存储我的 sklearn Isolation Forest 估计值并稍后使用这些值构建一个新模型吗?
我能够建立一个隔离森林来进行异常检测。但是,由于存储限制,我无法存储用于训练它的所有数据。我还想稍后输入更多数据。
我想知道当我最初训练它时是否有可能获得估计值并保存它们。然后,一周后,当我想用一些新获取的数据重新训练模型时,我可以先使用那些存储的估计值恢复我的旧模型(所以我不需要能够访问旧数据),然后模型将适应新增加的价值。
我选择诉诸于此的原因是因为我找不到任何迭代学习的异常检测算法(因此该部门的免费开源建议也很有效!)
对此的任何帮助将不胜感激!
matlab - 隔离森林(iForest)是一种可以直接应用于大数据的方法吗?
我试图了解是否可以将 iForest 直接应用于一个非常大的静态数据集(固定大小,在基数和维度上),而不使用像 hadoop 或 spark 这样的分布式处理框架?甚至,这样的数据集是否被视为大数据?
当我直接说时,我的意思是不需要将整个数据加载到 RAM 中,因为如您所知,iForest 使用二次采样来制作 iTree,我不确切知道磁盘 I/O 速度在哪里有任何影响关于算法的性能与否!
实际上,我开发了一种新方法作为我的硕士论文,用于大数据中的局部异常值检测,该方法基于一种名为BFR的旧可扩展聚类算法,但与高斯簇的结构略有不同,它们可以相关。与 BFR 一样,它不需要将整个数据加载到 RAM 中并逐块扫描整个数据。它首先对整个数据进行随机样本以获得第一个聚类信息,然后应用可扩展聚类来完成聚类模型,最后通过对整个数据集的另一次扫描,它给每个对象一个名为 SDCOR(Scalable基于密度的聚类异常值比)。但问题是我使用的数据类型是静态的,而不是流式数据,甚至合成数据的最大大小约为 100 万乘 40 维,其容量小于 400 兆字节。但我已经在理论上和经验上证明了,它是可扩展的,它的时间复杂度是线性的,常数很小,对于提到的 1e6×40 数据集,它在大约 4 分钟内以 100% 的 AUC 完成处理,我相信它甚至可以更少改进实施。我已经在 MATLAB 9 中实现了整个方法,甚至制作了一个可爱的 GUI,目前我正在写我提到的论文的一篇论文,但我担心审稿人对声称 Big 的论文要点的反馈数据的东西!
这是我的方法 (SDCOR) 和其他竞争方法在现实生活和合成数据集上的最终结果表: 注意:粗体值是所有方法中最好的。
欢迎任何有用的评论!;-) 谢谢 ...