我正在处理时间序列数据中的重复模式。我的目标是将每个模式分类为 1,将不遵循该模式的任何内容分类为 0。该模式在每两个峰之间重复,如下图所示。
这些模式不一定在样本量上是固定的,而是保持在近似样本量内,比如 500 个样本 +-10%。峰的高度可以改变。随机信号(我称之为随机,但基本上它意味着不遵循模式形状)也可以改变值。
数据来自传感器。模式是设备正常工作的时候。如果设备出现故障,那么我将看不到这些模式,并且会得到类似于我在图像中显示的 0 类的东西。
到目前为止,我所做的是建立一个逻辑回归模型。以下是我的数据准备步骤:
在每两个连续峰值之间抓取数据,将其重新采样到 100 个样本的固定大小,将数据缩放到 [0-1]。这是1级。
对山谷之间的数据重复步骤 1,并将其称为 0 类。
我产生了一些噪音,并在 500 个样本上重复了第 1 步,以构建额外的 0 类数据。
下图显示了我对测试数据集的预测。对噪声块的预测不是很好。我担心在真实数据中我可能会得到更多的误报。关于如何改进我的预测的任何想法?当没有可用的 0 类数据时,有什么更好的方法吗?
我在这里看到了类似的问题。我对隐马尔可夫模型的理解有限,但我相信它是用来预测未来数据的。我的目标是在我的数据中对 500 个样本的滑动窗口进行分类。
