0

假设我以时间序列的形式对当地的温度、风速、气压、湿度等进行了测量,这就是我从世界上所知道的一切。有时,龙卷风会掠过我的探测器。

因为龙卷风不仅仅是一种随机的东西,还有一种模式,训练有素的眼睛可以在时间序列中识别出来……温度、风速等的一些变化以某种方式相互关联,周围有不可预测的波动。

我想以某种自动方式来识别时间序列中的间隔,这些间隔对应于我的探测器“看到”龙卷风的时期。

哪种机器学习方法更适合识别它们,并给我一些相应的“可靠性系数”。

请注意,由于龙卷风本质上是一种不稳定的物体,而且还会以某种不稳定的方式移动,因此探测器并不总是看到相同的温度、风速等变化,因为龙卷风可以在探测器上来回移动,局部变化它的形状等。我想我想说的是时间序列测量值与这些量的实际空间分布不对应,可以在龙卷风的“静止框架”中绘制。但是,它总是会看到“某种”相同的特征,但周围有一些随机性,我的眼睛可以识别出来,这让我认为这对于 ML 来说是一项合适的任务。

其他问题:是否有 python ML 库可以实现推荐的方法?(PyBrain, Scikit ? ...?)

4

2 回答 2

1

可能可以在数据上移动窗口上提取一些时间序列特征,手动将一些事件标记为龙卷风发生的正面例子,并将其余样本视为负面样本,然后拟合分类器以将正面龙卷风事件与随机天气区分开来从您的传感器测量的条件。

您的数据中有多少这样的事件?如果认为您需要至少 100 次龙卷风事件才能训练一个足够可靠的模型,并对其预测准确性进行足够好的估计。

是否可以公开发布该数据集,例如在http://figshare.com上?

于 2013-01-04T10:26:38.947 回答
1

机器学习算法种类繁多。您提供的信息不建议任何一组算法在未经进一步调查的情况下具有优越性。延长的时间序列确实表明您可能需要一种算法来创建简化的特征向量。神经网络不会自动为您提供可靠性系数。如果您愿意公开分发包含数百个随机正例和负例的数据集,那么随着时间的推移,很可能许多不同的组会应用各种算法。存在各种“竞赛”站点,可以加快这一进程。

于 2013-01-05T06:04:25.653 回答