给定传感器状态间隔的时间序列,我如何实现一个分类器,该分类器从受监督的训练数据中学习,以根据一系列状态间隔检测事件?为了简化问题,传感器状态被简化为true
或false
。
更新:我发现这篇关于时间间隔挖掘序列的论文 (PDF)解决了类似的问题。另一篇关于Mining Hierarchical Temporal Patterns in Multivariate Time Series的论文(Google Docs)采用了一种新颖的方法,但处理的是分层数据。
示例训练数据
以下数据是事件的训练示例,表示为随时间变化的图表,其中/¯¯¯\
表示true
状态间隔和传感器\___/
的false
状态间隔。
Sensor | Sensor State over time
| 0....5....10...15...20...25... // timestamp
---------|--------------------------------
A | ¯¯¯¯¯¯¯¯¯¯¯¯\________/¯¯¯¯¯¯¯¯
B | ¯¯¯¯¯\___________________/¯¯¯¯
C | ______________________________ // no state change
D | /¯\_/¯\_/¯\_/¯\_/¯\_/¯\_/¯\_/¯
E | _________________/¯¯¯¯¯¯¯¯\___
事件检测 vs 序列标签 vs 分类
我最初将我的问题概括为两类序列标记问题,但我的类别确实代表“正常操作”和罕见的“警报事件”,所以我将我的问题改写为事件检测。训练数据可用于“正常操作”和“报警事件”。
为了降低问题的复杂性,我已将传感器事件离散化为布尔值,但情况并非如此。
可能的算法
隐马尔可夫模型似乎是一种可能的解决方案,但它能够使用状态区间吗?如果序列标记器不是解决此问题的最佳方法,我们将不胜感激其他建议。
贝叶斯概率方法
传感器活动在一天中的不同时间会有很大差异(早上很忙,晚上很安静)。我最初的方法是在几天内测量正常的传感器状态并按一天中的时间(小时)计算状态概率。在不太可能的时间超过“不可能阈值”的传感器状态的组合概率将表明发生了事件。但是,如果传感器嘈杂,这似乎会引发误报。我还没有实现这一点,但我相信这种方法是有好处的。
特征提取
矢量状态可以表示为在特定时间发生并持续特定持续时间的状态间隔变化。
struct StateInterval
{
int sensorID;
bool state;
DateTime timeStamp;
TimeSpan duration;
}
例如。进程表中的一些状态间隔:
[ {D, true, 0, 3} ]; [ {D, false, 4, 1} ]; ...
[ {A, true, 0, 12} ]; [ {B, true, 0, 6} ]; [ {D, true, 0, 3} ]; etc.
一个好的分类器会考虑状态值区间和最近的状态变化,以确定状态变化的组合是否与某个类别的训练数据紧密匹配。
编辑:关于如何从多个传感器的警报数据中提取特征以及如何将其与以前的数据进行比较的一些想法......
首先计算一天中每个小时的每个传感器的以下数据:
- 平均状态间隔长度(对于
true
和false
状态) - 状态变化之间的平均时间
- 状态随时间变化的次数
然后可以将每个传感器与矩阵中的每个其他传感器进行比较,数据如下:
- 在传感器 A 之后,传感器 B 变为真实状态所需的平均时间。如果平均值是 60 秒,那么 1 秒的等待会比 120 秒的等待更有趣。
- 当传感器 A 处于一种状态时,传感器 B 经历的平均状态变化次数
给定两组训练数据,分类器应该能够从这些特征集中确定最有可能进行分类的类别。
这是一种明智的方法吗?比较这些特征的好算法是什么?
编辑:状态变化(false->true
vs true-false
)的方向很重要,所以任何特性都应该考虑到这一点。