“anomaly-detection”的相关标签问题

0 投票

1 回答

37 浏览

sql - 错误：外键引用来自两个不同表的主键

我创建了一个这样的测试场景：

我有三张桌子，即父亲，孩子，食物。

父表具有主自增键和名称列。子表具有主自动增量键和名称列。食物有一列我想要一个外键和一列食物名称。

现在饭桌有异常。我无法区分（1 个披萨）是给父亲还是孩子...

测试用例：select food.name from food wherefather.id = 1；输出：pizza select food.name from food where child.id = 1; 输出：热狗

2017-05-27T11:01:04.890

0 投票

2 回答

461 浏览

r - 使用 Spark 和 R 进行时间序列中的趋势检测

我是 R 和 Spark 的新手，但我正在尝试创建一个可扩展的 R 应用程序来检测用户执行的增加/减少查询。

我有一个 Spark DataFrame，其中包含以下格式的数据：

该数据集有数十万行。我需要能够以某种方式可视化，例如，“hp tablet”正在上升。

我查看了一些可以帮助我实现这一目标的库（例如Breakout Detection、Anomaly Detection和this question），但我不知道它们是否与 Spark 配合得很好。如果他们这样做了，我找不到任何关于如何进行编程的例子。

我正在使用在 Zeppelin Notebook 上运行的 R 版本 3.4.0 和 SparkR 版本 2.1.0。

有没有人有任何想法？我也对任何其他方法持开放态度。谢谢！

r apache-spark sparkr anomaly-detection

2017-06-05T20:19:19.947

0 投票

1 回答

174 浏览

neural-network - 深度神经网络与大数据分析

我是一名准博士（CS）学生。在我的 MS 研究期间，我一直从事异常检测领域的工作。现在，我有两个主要的和最近出现的领域可供选择，即深度神经网络和大数据分析。但是，我必须选择一个作为我未来的工作领域。

我想将这些领域之一与我之前关于异常检测的工作联系起来。此外，我在这里要问两个问题：

深度神经网络与大数据分析，哪个与异常检测更相关？
深度神经网络与大数据分析，哪个在未来有更大的发展空间？

neural-network deep-learning anomaly-detection bigdata

2017-06-06T10:06:45.243

0 投票

1 回答

1259 浏览

elasticsearch - CPU使用异常检测

我有来自 elasticsearch 的度量节拍数据，它有许多属性/列，如“cpu 空闲百分比”、“cpu 使用百分比”等。我想预测当我的服务器 cpu 使用率超过 90% 时的异常情况，比如说 3 分钟。有人可以对此有所了解吗？

elasticsearch anomaly-detection

2017-06-12T05:43:24.910

0 投票

0 回答

56 浏览

java - Rousseeuw 和 Croux 对 Q_n 估计器的 Java 实现

是否有 java 实现/有人知道如何实现Rousseeuw 和 Croux 引入的Q_n Estimator ？

我想在 Android 应用程序中使用它。此外，该应用程序无法使用互联网。

对于 S_n Estimator，我在MATLAB中找到了一个示例（请参阅致谢），我能够将其翻译成 java。

java android statistics outliers anomaly-detection

2017-06-14T07:15:00.103

0 投票

1 回答

612 浏览

我尝试使用AnomalyDetectionTs()来自https://github.com/twitter/AnomalyDetection 和https://www.r-bloggers.com/anomaly-detection-in-r/library(AnomalyDetection)的数据。在我的示例数据中，有非常摆动的值在图上没有下降曲线（或像模式一样缓慢下降）而不是它应该从它的模式。这个功能对我不起作用。该函数检测到的所有异常点都是正确的和正常的值。

这是函数的结果：

我的示例数据：https ://raw.githubusercontent.com/ieatbaozi/R-Practicing/master/example.csv

这是我的预期结果：如何检测那些异常数据？

如何通过填充最合适的值来修复这些值？平滑它们以接近它们周围的图案，并且在修复这些值后，所有数据的总值仍然相同。

我的额外问题是：你有什么想法找到它的模式吗？我可以给你更多的信息。非常感谢你的帮助。

r plot anomaly-detection

2017-06-23T04:34:25.100

0 投票

1 回答

1337 浏览

r - 寻找有影响力的观察的杠杆/帽子值

两个数据集：一个明显有影响的观察结果，另一个没有。但是，当我找到帽子值并使用经验法则测试时，第一个并不表示撤消杠杆，第二个表示：

注意最后的观察结果 (5)。它的帽子值为 0.94，超过帽子平均值的 2 倍或 3 倍，因此它被标记为有影响力。

现在看最后一个观察，它显然是有影响的，但它的帽子值不超过平均值的 2 倍。

背景：数据集是随时间变化的值。每隔一段时间，这些值就会变得不稳定（异常、尖峰、重置、归零）。我的想法是使用 for 循环来计算每 5 个数据点的回归。当我遇到异常时，我可以编写一些逻辑来修复它。

r outliers anomaly-detection

2017-06-23T15:55:15.267

0 投票

1 回答

12 浏览

computer-vision - 如何将不同比例的视频量（密集采样后）转换为描述符？

我阅读了这篇文章（链接）并尝试理解那里介绍的算法。
所以，现在我几乎理解了这篇文章的所有观点，但有疑问：

如何将不同比例的视频量（密集采样后）转换为描述符？

据我了解，如果我有 100 帧 120*160 的视频，那么我应用不同比例的密集比例（例如[5*5*5, 10*10*10, 20*20*20]），然后我将分别得到[15360, 1920, 240]立方体。但是，在那之后我需要为它们中的每一个制作描述符，并且描述符的长度必须相同（在本文中描述符的长度与立方体的大小相同，所以[125, 1000, 8000]）。

我认为的解决方案之一是为每个像素立方体创建不同比例的，然后将它们连接到一个长度为 9125 的向量中。对吗？

computer-vision anomaly-detection

2017-06-26T16:53:34.067

0 投票

1 回答

108 浏览

machine-learning - 数据传输中的异常检测

我正在研究异常检测模型，需要帮助来识别数据传输中的异常。示例：如果员工使用 VPN 连接并且我们有以下数据使用情况：

我想将第 3 行标记为异常，因为员工一直在某个范围内发送或接收，然后突然跳跃。我想跟踪最近几天发送和接收的字节数——这意味着他的行为在最近几天发生了怎样的变化。

machine-learning data-science anomaly-detection

2017-06-28T13:09:44.973

0 投票

0 回答

345 浏览

python - 从不同时间开始的相似（家族）图之间的异常检测

我最近观看了Homin Lee在 OSCON Austin 2016上关于“在 Datadog 实时检测异常值和异常”的演讲，并找到了提出以下问题的适当动机。

基本上，我要做的是在不一定同时开始（t）但形状非常相似（在家庭中）的图中找到异常。

分开：

结合：

正如我的（粗略的）概念图中所描绘的，给定两个相似的频率（f）时间函数，我想根据每个拐点的位置将它们排列在一起。其中一个频率图从t=-2开始，另一个从t=5开始。它们在t_1=8.5和t_2=1.5附近都有拐点。这就是我要排列它们的地方。从本质上讲，绘制的图像应该是我的算法的最终输出，并列出任何触发的异常，例如绿色曲线，如果f=0.2在t_1=12，那么这应该是异常，因为它不在家族中。正如 Homin Lee 所说，该图不会“在经过训练的信封内”。

现在我想列出我的具体方法是什么，看看你是否有同样的想法或有更好的方法来开发这个算法。在我们选择使用哪种异常检测算法之前，我们需要讨论如何准备这些数据。我们将继续使用频率与时间的数据作为示例。为了准备数据，我们需要（1）找到拐点，（2）缩放数据，使数据都具有相同的时域持续时间（即，12-5=7=7=5-(-2) ) 和 (3) 找到一种方法来匹配（排列）每个图的时间（即，5 到 -2、6 到 -1，等等）。

找到拐点不会太难，因为我们所要做的就是检测每个图表上凹度变化的位置。在我们的示例中，这将是t_1=7.5和t_2=1.5。这里写的这个算法似乎很有潜力。
为了缩放数据，我们希望将拐点放在图的中间，所以|t_min-t_I|=|t_max-t_I| 其中t_I是拐点发生的时间。频率将被缩放到一些相当大的范围。我假设这种缩放将类似于这种方法。
找到一种方法来匹配（排列）每个图表的时间将是三个目标中最困难的目标，我不确定如何做到这一点，但我会提出我的建议。我在想也许我们可以使用这里讨论的内容或为数据集定义离散傅立叶变换，以确定两个图的公共数据域。这部分非常未知，我想打开它以征求建议。

一旦准备好数据，现在就进入算法了。对于（稳健的）异常检测，我正在考虑使用一类/多类支持向量机（SVM），因为我们将训练大量图来形成“包络”。本节也开放征求意见。

作为一个登月想法，我希望最终能够将所有图表放在一个巨大的图上，并从那里指出异常。问题是会有很多不同的时间间隔。因此，一种解决方案是创建一个单一的通用（u）时间间隔，这样您就不必处理不同的间隔（例如，t_1=5,9将变为t_u=1,5并且同样适用于t_2）。

回顾一下，我希望分析不同时间间隔的类似图表以发现异常。查找关键/关键点（不一定是拐点）、缩放、绘制图表并检查异常情况。

我已经讨论了足够长的时间，但是如果有些事情没有意义，并且您希望我澄清或详细说明，请告诉我，我会的。随意提出建议，向我提交一些代码，和/或我以前没有必要想到的任何其他想法或方法。

谢谢你。

PS，对图纸感到抱歉；我已经尽力了。:P

python python-3.x machine-learning anomaly-detection

2017-07-04T21:28:39.093

问题标签 [anomaly-detection]

sql - 错误：外键引用来自两个不同表的主键

r - 使用 Spark 和 R 进行时间序列中的趋势检测

neural-network - 深度神经网络与大数据分析

elasticsearch - CPU使用异常检测

java - Rousseeuw 和 Croux 对 Q_n 估计器的 Java 实现

r - R：如何检测和修复情节上的异常值？

r - 寻找有影响力的观察的杠杆/帽子值

computer-vision - 如何将不同比例的视频量（密集采样后）转换为描述符？

machine-learning - 数据传输中的异常检测

python - 从不同时间开始的相似（家族）图之间的异常检测

问题标签 [anomaly-detection]

Reference