1

我有一个系统生成的数据流(例如 3D 位置),它看起来像:

(pos1, time1) (pos2, time2) (pos3, time3) ...

我想使用机器学习技术从给定的数据流中估计特定事件的可能性(或检测)。我做了什么:

  1. 如果事件发生在该帧,我在每一帧都用“是”标记我的数据,否则它被设置为“否”。

(pos1, time1, NO) (Pos2, time2, Yes) (pos3, time3, NO) ...(posK, timeK, Yes)...

  1. 通过给出L个连续帧来设置像L这样的窗口长度来训练模型,并且相应的标签由该窗口上最后一个元素的标签设置:

(pos1, Pos2, pos3, NO) (pos2, Pos3, pos4, NO) (pos3, Pos4, pos5, NO) ... (posK-2, PosK-1, posK, YES) ...

  1. 最后,我用这一套训练了我的模型。
  2. 对于测试,我连接L个连续的帧并要求模型为这组数据找到相应的标签(例如是或否)。

我意识到“NO”的出现比“YES”更频繁。仅仅是因为系统主要处于空闲状态而我没有任何事件。所以会影响训练。

你能给我一些提示吗:1)什么类型的机器学习模型最适合这个问题。2)目前我输出分类为“是”或“否”,但我希望随时了解事件发生的概率。你建议什么样的模型?

谢谢

4

1 回答 1

1

我认为这里实际上有两个问题:如何构建数据集,以及使用哪个预测器。

为了构建数据集,在某个时间点i,请确保选择在i之前发生的实例(您问题中的措辞使您似乎选择了包含i的实例)。结果的标签应该是i处的标签。毕竟,您是在尝试根据现在来预测未来,不是吗?根据现在预测现在是相当容易的。

还有一点是如何选择,甚至是否选择单个。请注意,如果您选择多个不同的值,那么您将获得一个多元模型。

最后,您直接问的问题是使用哪个预测器。在不知道您的数据集(并使用它)的情况下,这太宽泛了,无法回答。您可能想阅读有关偏差-方差权衡的信息,以了解为什么某些问题没有“最佳”预测器。

话虽如此,我建议您从逻辑回归开始,它是一个简单而强大的分类器,还输出概率(如您所问)。

于 2016-03-26T19:57:53.223 回答