c# - 从多元时间序列间隔中检测罕见事件

Question

给定传感器状态间隔的时间序列，我如何实现一个分类器，该分类器从受监督的训练数据中学习，以根据一系列状态间隔检测事件？为了简化问题，传感器状态被简化为true或false。

更新：我发现这篇关于时间间隔挖掘序列的论文 (PDF)解决了类似的问题。另一篇关于Mining Hierarchical Temporal Patterns in Multivariate Time Series的论文（Google Docs）采用了一种新颖的方法，但处理的是分层数据。

示例训练数据

以下数据是事件的训练示例，表示为随时间变化的图表，其中/¯¯¯\表示true状态间隔和传感器\___/的false状态间隔。

 Sensor   |  Sensor State over time
          |  0....5....10...15...20...25...  // timestamp
 ---------|--------------------------------
 A        |  ¯¯¯¯¯¯¯¯¯¯¯¯\________/¯¯¯¯¯¯¯¯
 B        |  ¯¯¯¯¯\___________________/¯¯¯¯
 C        |  ______________________________  // no state change
 D        |  /¯\_/¯\_/¯\_/¯\_/¯\_/¯\_/¯\_/¯
 E        |  _________________/¯¯¯¯¯¯¯¯\___

事件检测 vs 序列标签 vs 分类

我最初将我的问题概括为两类序列标记问题，但我的类别确实代表“正常操作”和罕见的“警报事件”，所以我将我的问题改写为事件检测。训练数据可用于“正常操作”和“报警事件”。

为了降低问题的复杂性，我已将传感器事件离散化为布尔值，但情况并非如此。

可能的算法

隐马尔可夫模型似乎是一种可能的解决方案，但它能够使用状态区间吗？如果序列标记器不是解决此问题的最佳方法，我们将不胜感激其他建议。

贝叶斯概率方法

传感器活动在一天中的不同时间会有很大差异（早上很忙，晚上很安静）。我最初的方法是在几天内测量正常的传感器状态并按一天中的时间（小时）计算状态概率。在不太可能的时间超过“不可能阈值”的传感器状态的组合概率将表明发生了事件。但是，如果传感器嘈杂，这似乎会引发误报。我还没有实现这一点，但我相信这种方法是有好处的。

特征提取

矢量状态可以表示为在特定时间发生并持续特定持续时间的状态间隔变化。

struct StateInterval
{
    int sensorID;
    bool state;
    DateTime timeStamp;
    TimeSpan duration; 
}

例如。进程表中的一些状态间隔：

[ {D, true, 0, 3} ]; [ {D, false, 4, 1} ]; ...
[ {A, true, 0, 12} ]; [ {B, true, 0, 6} ]; [ {D, true, 0, 3} ]; etc.

一个好的分类器会考虑状态值区间和最近的状态变化，以确定状态变化的组合是否与某个类别的训练数据紧密匹配。

编辑：关于如何从多个传感器的警报数据中提取特征以及如何将其与以前的数据进行比较的一些想法......

首先计算一天中每个小时的每个传感器的以下数据：

平均状态间隔长度（对于true和false状态）
状态变化之间的平均时间
状态随时间变化的次数

然后可以将每个传感器与矩阵中的每个其他传感器进行比较，数据如下：

在传感器 A 之后，传感器 B 变为真实状态所需的平均时间。如果平均值是 60 秒，那么 1 秒的等待会比 120 秒的等待更有趣。
当传感器 A 处于一种状态时，传感器 B 经历的平均状态变化次数

给定两组训练数据，分类器应该能够从这些特征集中确定最有可能进行分类的类别。

这是一种明智的方法吗？比较这些特征的好算法是什么？

编辑：状态变化（false->truevs true-false）的方向很重要，所以任何特性都应该考虑到这一点。

score 7 · Accepted Answer

一个简单的解决方案是折叠数据的时间方面并将每个时间戳作为一个实例。在这种情况下，传感器的值被视为您的特征向量，其中每个时间步都标记有类别 A 或 B 的类值（至少对于标记的训练数据）：

   sensors      | class
A  B  C  D  E   |
------------------------- 
1  1  1  0  0   |  catA
1  0  0  0  0   |  catB
1  1  0  1  0   |  catB
1  1  0  0  0   |  catA
..

该输入数据被馈送到通常的分类算法（ANN、SVM、...），目标是预测未标记时间序列的类别：

   sensors      | class
A  B  C  D  E   |
------------------------- 
0  1  1  1  1   |   ?
1  1  0  0  0   |   ?
..

降维/特征提取的中间步骤可以改善结果。

显然，这可能不如对序列的时间动态进行建模，特别是因为隐马尔可夫模型 (HMM) 等技术考虑了各种状态之间的转换。

编辑

根据您在下面的评论，似乎获得较少目标类的短暂预测的最佳方法是在预测阶段结束时应用后处理规则，并将分类输出视为一系列连续预测。

其工作方式是您将计算类后验概率（即：实例属于每个类标签的概率分布，在二进制 SVM 的情况下很容易从决策函数导出），然后给定一个指定的阈值，您检查预测类别的概率是否高于该阈值：如果是，我们使用该类别来预测当前时间戳，如果不是，则保留先前的预测，未来实例也是如此。这具有为当前预测增加一定惯性的效果。

score 4 · Accepted Answer

这听起来不像是分类问题。分类器并不是真的要考虑“状态变化的组合”。这听起来像是一个序列标签问题。研究使用隐马尔可夫模型或条件随机场。您可以在http://leon.bottou.org/projects/sgd找到后者的有效实现。

编辑： 我已经更详细地阅读了你的问题，我不认为 HMM 是最好的模型，因为你想要对功能做些什么。它会炸毁你的状态空间，并可能使推理变得棘手。你需要一个更具表现力的模型。你可以看看动态贝叶斯网络。他们通过允许以分解形式表示状态空间来概括 HMM。凯文墨菲的论文是我遇到的最全面的资源。

不过，我仍然会喜欢 CRF。就像一个简单的起点一样，将一天中的时间和每个传感器读数定义为每次观察的特征，并使用二元特征函数。您可以从那里看到它的执行情况并增加功能的复杂性。我会从简单的开始。我认为您低估了您的某些想法实施的难度。

score 1 · Accepted Answer

为什么要重新发明轮子？查看TClass

如果那不适合您，您还可以找到许多指针。我希望这有帮助。

c# - 从多元时间序列间隔中检测罕见事件

示例训练数据

事件检测 vs 序列标签 vs 分类

可能的算法

贝叶斯概率方法

特征提取

3 回答 3

Related

Reference