我有一个包含 2000 行和 5 个特征(列)的数据框,如下所示:
my_data:
Id, f1, f2, f3, f4(target_value)
u1 34 sd 43 1
u1 30 fd 3 0
u1 01 sd 2.4 0
.. .. .. .. ..
u1 13 sd 23 1
u2 23 fd 12 0
u2 30 fd 3 1
u2 15 sd 2.4 0
.. .. .. .. ..
u2 18 xd 20 0
u3 66 ss 43 1
u3 30 fd 23 1
u3 50 sd 21 0
.. .. .. .. ..
u3 37 sd 28 1
在每个 Id(例如,u1 或 u2)的这个数据帧中,只有少数实例,例如,10、13 或最多 15 个样本。当然,我想为每个单独的 Id 做一些分类和预测任务,这个数据点数量不足以完成 ML 任务。有什么方法可以为每个 Id 生成一些人工数据点(比如过采样),这在统计上可以依赖于机器学习任务?