-2

这是我的问题: 例如,我有一个表包含人们一个月内的行为信息(多个特征),每个人都有唯一的 ID 和唯一的标签(0 和 1)。我想要做的是使用这些功能来预测客户是否属于组 0 / 1。

但是,问题是每个ID的特征被多次收集和记录,这意味着我有多个行属于同一个ID。那么如何构建我的数据并构建一个特征矩阵,其中一个 ID 对应于一行特征和一个标签?

特征

ID feature1 feature2 feature3 ...
1  2        1.5      1        ...
2  1        3        0        ...
3  1        2        1        ...
1  2.5      1        1        ...
3  0.8      1        0        ...
...

标签

ID lable
1  0
2  1
3  0
...

示例:两个数据框

有没有办法可以尽可能的把这些多行特征考虑进去,并创建一个一一对应的特征矩阵呢?

到目前为止我的个人想法:首先,计算每个 ID 显示为新特征的时间。其次,将每个 ID 聚类为两个簇,并使用大多数 ID 的簇中心作为该 ID 的特征数组。

任何人都可以帮助我吗?非常感谢!

4

1 回答 1

0

特征工程将受到您对数据和工程特征最终用途的任何假设的重大影响。

首先,您可以通过基本统计功能MIN, MAX, NMISS, COUNT, SUM, MEAN, STDEV等在 ID 级别聚合所有功能。因此,如果您有f功能并使用k统计数据,您最终将得到f*k自变量。

此外,根据数据 - 您可能对查看特殊类别感兴趣 - 例如,您可能feature_1 >= 10对每个 ID 的出现次数感兴趣,这可能是一个附加变量。

于 2018-12-05T13:57:56.703 回答