2

我是机器学习的新手。

我有一个庞大的气象站传感器数据数据库。这些传感器可能损坏或具有奇数值。损坏的传感器会影响使用该数据进行的计算。

目标是使用机器学习来检测新传感器值是否为奇数,如果是则将其标记为损坏。如前所述,我是 ML 新手。有人可以将我推向正确的方向或对我的方法提供反馈。

数据具有日期时间和值。传感器值每小时推送一次。

我很感激任何帮助!

4

2 回答 2

4

由于这个问题本质上很笼统,我将提供一些基本的想法。也许你已经对它们稍微熟悉了。

  1. 设置一个包含损坏传感器和良好传感器的数据集。那是因变量。使用该集合,您还有一些可能预测 Y 变量的变量。我们称他们为 X。

  2. 你训练一个模型来学习 X 和 Y 之间的关系。

  3. 您根据未知结果的 X 值预测 Y 值。

关于基础知识的一些有用见解在这里:

https://www.youtube.com/watch?v=elojMnjn4kk&list=PL5-da3qGB5ICeMbQuqbbCOQWcS6OYBr5A

祝你好运!

于 2018-03-16T15:31:27.673 回答
0

您可以使用 Isolation Forest 来检测异常读数。Twitter 开发了一种称为 ESD(Extreme Studentized Deviate)的算法也很有用。 https://github.com/twitter/AnomalyDetection/

然而,需要一个良好的 EDA(探索性数据分析)来定义由于传感器故障而在读数中发现的异常类型。

1)阶梯式趋势,值突然增加并保持增加或减少

2)与其他传感器相比,值逐渐增加,突然增加非常高

3)数据中的间歇性峰值

于 2018-12-08T18:01:29.793 回答