我正在研究具有数字特征和目标的回归模型。
y : the weight of wastes collected in recycling bins
Xi : features about demography or urban elements around, or appearance of the bin
我注意到我似乎对目标没有影响的特征也与数据集中不平衡的特征几乎相同。
i.e : "type of bin" -> 66 are buried vs 752 over the ground
*(nb : I used 0/1 for having numerical data)*
我会看看这些功能在使用 oversampling 时是否有更大的影响。
我首先尝试了一种手工方式:复制少数类的数据。
i.e : I duplicated 5 times the 66 bins that are buried
对于某些特征,线性回归的系数明显更高,但没有随机森林的特征重要性。
我会使用 SMOTE 来精确我的结果,以得出这些特征是否对目标有影响的结论。
我发现我们可以使用 SMOTE 与 smogn 或 resreg 包进行回归。
但是我没有找到如何在功能上使用它(不是在目标上:不平衡是针对功能的)。
你知道解决方法吗?(我的意思是:你知道我是否可以改变SMOTE的参数,或者使用另一个函数来作用于特征而不是目标?)