我有一个不平衡的数据集,其中包含一个分类因变量和连续分类的特征变量。我知道 DMwR 包中的 SMOTE 函数只能处理连续特征。是否有包可以处理 Chawla在他的论文中描述的分类和连续特征?
问问题
2681 次
1 回答
0
你可以在 R 中处理这个!
是的,smotefamily::SMOTE 和 DMwR::SMOTE 都只能处理数字特征,因为底层算法是 k 最近邻。
所以:
将所有分类变量转换为 datatype
factor
。通过最近的包计算每个因子水平的数值估计
tidymodels::embed
该tidymodels::embed
软件包提供了三种执行步骤 2 的方法:
- step_lencode_glm
- step_lencode_bayes
- step_lencode_mixed
文档说这些
方法estimate the effect of each of the factor levels on the outcome and these estimates are used as the new encoding.
于 2019-11-01T09:52:50.643 回答