1

我正在研究一个二进制分类问题,如果每个数据实例都有几个不同指标的时间序列,并且还有一些其他属性。如何处理时间序列,将它们视为单独的属性?但这会丢失与时间维度相关的信息。

为了使其更具体,训练实例的示例如下所示:

ID MetricA_Day1 MetricA_Day2 ..... MetricA_Day31 MetricB_Day1....MetricB_Day2 AttributeC AttributeD AttributeE

有没有关于如何处理这个问题的最佳实践?

4

1 回答 1

4

首先,“通用”答案:不,在机器学习的最佳实践中没有这样的事情。事实上,只有坏的当下流行的,没有“最好的”。即使对于二元线性分类,训练几何模型(SVM?)还是概率模型更好,也取决于数据。即使我们缩小到某个特定的模型(比如说神经网络),即使在数据缩放方面也没有最佳实践。它应该在[0,1]中吗?或者也许是[-1,1]?那么均值 0 和方差 1 呢?那么协方差矩阵呢?

现在了解详细信息-您的问题几乎没有提供有关数据的信息。说“我有一些属性和几个时间序列”远没有给真正有洞察力和有价值的答案的机会。但这似乎不是一项有明确答案的任务,它是一项长期研究任务。

在研究期间您可以搜索什么?

  • 这里真的需要这么丰富的表示吗?人们倾向于认为“越多越好”,这在 ML 方面并不一定正确。更简单、信息更丰富的表示通常要好得多也许尝试将您的时间序列表示为一些一般特征,如 sime 频率特征、幅度等。
  • 内核方法可以使用非常广泛的相似性度量,特别是您可以为表示的每个“部分”定义不同的度量 - 因此时间序列将使用专业内核,而简单属性则使用一些简单的内核,通常您只需使用这些内核的总和(这也是一个有效的内核)
  • 通过为每个维度定义各种距离,可以使用基于距离的方法(如 kNN)执行类似的方法
  • 您还可以为表示的每个“部分”训练单独的分类器 - 同样 - 时间序列有一些专门的时间序列分类器等并将它们用作集合(有很多方法可以使用这种集合,目前非常热门ML 中的主题)
于 2013-09-17T16:05:02.600 回答