2

目标属性分布目前是这样的:

mydata.groupBy("Churn").count().show()

+-----+-----+
|Churn|count|
+-----+-----+
|    1|  483|
|    0| 2850|
+-----+-----+

我的问题是:

  • 过采样方法如:manully、smote、adasyn将使用可用数据来创建新数据点?

  • 如果我们用这样的数据来训练一个分类模型,会不会是过拟合?

4

1 回答 1

1

我的问题是任何过采样方法(手动、重击、adasyn)都将使用可用数据来创建新数据点。

  • 数据不平衡问题主要分三步处理:
    1. 对少数类进行过度抽样。
    2. 对多数类进行欠采样。
    3. 合成新的少数民族类别。

SMOTE(Synthetic Minority Over-sampling TEchnique)即将进入第三步。这是从数据集中创建新的少数类的过程。

SMOTE中的流程如下:

在此处输入图像描述

所以,这比过采样要聪明一点。

如果我们用这样的数据来建立分类模型,会不会是过拟合?

正确的答案是PROBABLY。试试看!

这就是为什么我们使用测试集交叉验证来尝试了解模型是否适用于看不见的数据!

于 2018-09-30T15:21:28.693 回答