0

我有一个包含 2000 行和 5 个特征(列)的数据框,如下所示:

    my_data:
            Id,   f1,   f2,  f3,   f4(target_value)
            u1    34     sd  43        1
            u1    30     fd   3        0
            u1    01     sd  2.4       0
            ..    ..     ..   ..      .. 
            u1    13     sd  23        1
            u2    23     fd  12        0
            u2    30     fd   3        1
            u2    15     sd  2.4       0
            ..    ..     ..   ..      .. 
            u2    18     xd  20        0
            u3    66     ss  43        1
            u3    30     fd  23        1
            u3    50     sd  21        0
            ..    ..     ..   ..      .. 
            u3    37     sd  28        1

在每个 Id(例如,u1 或 u2)的这个数据帧中,只有少数实例,例如,10、13 或最多 15 个样本。当然,我想为每个单独的 Id 做一些分类和预测任务,这个数据点数量不足以完成 ML 任务。有什么方法可以为每个 Id 生成一些人工数据点(比如过采样),这在统计上可以依赖于机器学习任务?

4

0 回答 0