我正在处理 2020 年每分钟聚合的大型时间序列数据集。该数据集从正在监测热电厂设备的传感器获取值。传感器测量温度、压力、电流等值,并根据每次读数更新数据集。
我正在寻找由传感器引起的数据集中的错误。当来自传感器的输入停留在某个值时,就会出现来自传感器的错误类型之一。例如,当我们知道它应该波动时,其中一个温度传感器连续 20 分钟报告了 71.46 的值。我试图在我当前的数据集中找到这些错误,并希望训练一个模型来检查未来数据集中的重复值。
理想情况下,我希望能够在数据集中找到一个值连续重复 5 次或更多次的时间窗口。
数据采用 pandas 时间数据帧的形式,内核为 python 3.6。如果您有任何建议,请告诉我。