3

我有一个不平衡的数据集,其中包含一个分类因变量和连续分类的特征变量。我知道 DMwR 包中的 SMOTE 函数只能处理连续特征。是否有包可以处理 Chawla在他的论文中描述的分类和连续特征?

4

1 回答 1

0

你可以在 R 中处理这个!

是的,smotefamily::SMOTE 和 DMwR::SMOTE 都只能处理数字特征,因为底层算法是 k 最近邻。

所以:

  1. 将所有分类变量转换为 datatype factor

  2. 通过最近的包计算每个因子水平的数值估计tidymodels::embed

tidymodels::embed软件包提供了三种执行步骤 2 的方法:

  • step_lencode_glm
  • step_lencode_bayes
  • step_lencode_mixed

文档说这些 方法estimate the effect of each of the factor levels on the outcome and these estimates are used as the new encoding.

于 2019-11-01T09:52:50.643 回答