这是我的问题: 例如,我有一个表包含人们一个月内的行为信息(多个特征),每个人都有唯一的 ID 和唯一的标签(0 和 1)。我想要做的是使用这些功能来预测客户是否属于组 0 / 1。
但是,问题是每个ID的特征被多次收集和记录,这意味着我有多个行属于同一个ID。那么如何构建我的数据并构建一个特征矩阵,其中一个 ID 对应于一行特征和一个标签?
特征
ID feature1 feature2 feature3 ...
1 2 1.5 1 ...
2 1 3 0 ...
3 1 2 1 ...
1 2.5 1 1 ...
3 0.8 1 0 ...
...
标签
ID lable
1 0
2 1
3 0
...
示例:两个数据框
有没有办法可以尽可能的把这些多行特征考虑进去,并创建一个一一对应的特征矩阵呢?
到目前为止我的个人想法:首先,计算每个 ID 显示为新特征的时间。其次,将每个 ID 聚类为两个簇,并使用大多数 ID 的簇中心作为该 ID 的特征数组。
任何人都可以帮助我吗?非常感谢!