目标属性分布目前是这样的:
mydata.groupBy("Churn").count().show()
+-----+-----+
|Churn|count|
+-----+-----+
| 1| 483|
| 0| 2850|
+-----+-----+
我的问题是:
过采样方法如:manully、smote、adasyn将使用可用数据来创建新数据点?
如果我们用这样的数据来训练一个分类模型,会不会是过拟合?
目标属性分布目前是这样的:
mydata.groupBy("Churn").count().show()
+-----+-----+
|Churn|count|
+-----+-----+
| 1| 483|
| 0| 2850|
+-----+-----+
我的问题是:
过采样方法如:manully、smote、adasyn将使用可用数据来创建新数据点?
如果我们用这样的数据来训练一个分类模型,会不会是过拟合?
我的问题是任何过采样方法(手动、重击、adasyn)都将使用可用数据来创建新数据点。
SMOTE(Synthetic Minority Over-sampling TEchnique)即将进入第三步。这是从数据集中创建新的少数类的过程。
SMOTE中的流程如下:
所以,这比过采样要聪明一点。
如果我们用这样的数据来建立分类模型,会不会是过拟合?
正确的答案是PROBABLY。试试看!
这就是为什么我们使用测试集和交叉验证来尝试了解模型是否适用于看不见的数据!